作为华大基因的青年科学家,金鑫曾参与了一系列重大科研项目攻坚,包括国际千人基因组计划、中丹糖尿病基因组计划、人类泛基因组图谱计划、高原基因组计划,及自闭症基因组计划等。早在2009年,金鑫就以在校生的身份在《Nature》子刊《Nature Biotechnology》发表《构建人类泛基因组序列图谱》,并首次提出了“人类泛基因组”概念。
想到这似乎又是一次与天才的对话,记者一开始颇感紧张。而随后接近一个小时的采访中,逻辑怪、一针见血的观点、谈话间又容易亲近,这样的金鑫显得非常有趣。随和又严谨,两个矛盾纠结的词放在他身上却也没什么违和感。
数据分析:云上与本地多维布局
2015年,华大基因基因组数据分析云计算平台BGI Online国际版正式在AWS上线,随后于2016年在阿里云上线了国内版。作为负责人,金鑫见证了BGI Online的建设工作。其实早在2011年华大基因就开始尝试云上的数据组学方案,但由于当时国内公有云的建设还不成熟,作为先行者,他们走了不少弯路。
2014年开始,云技术领域有了很大的进步。阿里云,华为云这样的IaaS服务商快速崛起,“华大领导层觉得,这个事情可以干了。”金鑫回忆。
数据分析涉及到基因数据的降维过程,将原始数据降维到比较高质量的突变列表数据。传统方案中,是基于大型计算设备和存储设备来进行数据计算和降维。当数据量增加到现有构架不能满足计算需求,那企业就需要再次购买设备。这里面就涉及到两个问题,一是小型企业是否能够承受设备购买的费用,二是设备购买是否能够跟得上数据增加的速度。
BGI Online则把降维和数据环节搬到了云上,并且在分析层面上给用户定制化和个性化体验。金鑫告诉记者,传统的数据分析需要在本地集群上部署,然后在本地通过命令行去安装和操作。而BGI Online则通过前端把所有集群都管理隐藏起来,对前端用户来说,只需要简单的鼠标操作就可以根据自身需求更新流程和启动分析。
“一方面是降低数据分析本身的门槛,另一方面是可以让用户使用的更加便捷。不需要购买大型设备,也不需要复杂的操作,点点鼠标就可以完成了。”金鑫告诉记者。
此外,多年来华大基因积累了来自制药、科研、临床和个人等多样且丰富的客户,对市场和客户的需求有比较深的理解,这些都成为BGI Online的特色和优势。
但随后,金鑫话锋一转:“云平台是解决了很多问题,但实际上没有一种解决方案是完美的。云上或者是本地的方向都有各自优势所在,华大基因在这些方向都会去布局。”
据金鑫透露,华大基因已在数十家国内最好的医院部署了本地化解决方案一体机。临床医院对外的网络接口和传输速度可能受到限制,中间环节涉及到的很多软件需要监管部门注册报批,因此云上的方案并不一定完全适用。一体机包含了测序数据分析和报告产出功能,可满足临床级别检测的本地检测和本地分析需求。
“对于一些临床医院来说,这是个不错的解决方案。”他表示。
数据、终端和组学研究,解读环节的3个问题
从数据流的角度来说,数据产出(测序)和数据分析环节受设备和技术的影响比较大,而解读环节则更多受到专业人员和标准管理体制的影响。
1、基础问题:数据库与管理标准
数据解读可以简单理解为基因基因组学的翻译过程:根据新样本的信息,去寻找类似的样本,同样的突变、同样的表型,在按照同样的路径去解读。因此,要想解读更加精确和快速,首先就需要强大且丰富的数据资源。
但在整个全球范围内,组学数据的流通都处于比较受限的状态。一方面,数据如何合理共享,如何保护好用户隐私,国内目前还没有非常好的标准制定出来。
这些标准涉及到多个层面,比如测序技术、测序试剂以及测序数据本身的标准。“从数据产出到生成报告,这里面涉及到多个环节,每个环节都需要有标准。”金鑫表示。他告诉记者,目前各家在各个环节的标准不一,每一个环节的标准都可能影响到最终的数据,如果仅仅是制定最终的共享标准,并不能发挥数据管理的全部意义。
华大基因已经申请了部分重要的标准制定工作,包括DNA取样、样本制备、测序过程等等。
另一方面则是数据库本身的问题,这些数据主要来源于临床,能否用于构建数据库、如何构建本身就是个问题。目前国内所使用的数据库都是欧美的公开数据库。虽然都是同一个物种,现代人,但不同人种在基因层面还是存在一定差异的,所以一个中国人群的数据库是非常核心的。
尽管多家比较大型的基因公司都已经在进行数据库的构建工作。但放眼看欧美比较成功的数据库,其实大部分除了公司导向积累的数据外,更多是通过政府和科研机构共享开放出来的。这一类项目通常有国家专门拨给的科研经费,共享和管理机制也比较健全。
在反观目前国内现状,尽管这类大型的科研项目已经在逐步启动,但构建人群数据的科研项目投入尚没有欧美国家投入的多,数据共享的模式和管理机制也还在探索过程中。
这一方面,深圳国家基因库于2016年9月正式运营。国家基因库是由国家发改委、财政部和科技部等多个部门共同投资建设,目前主要交由华大基因运营管理。
简单来说,国家基因库是国家资源,数据资源公正公开,与公司层面建立的数据库将有本质区别。另外,国家基因库可以为数据存储和共享提供可靠基础,更容易把资源整理集结起来,再共享出去为更多人所用。
2、终端问题:临床咨询空缺
“但仅仅是这些依然是不够的。”金鑫告诉记者:“临床环节的基因数据解读不仅仅需要科研人员,其实跟临床专家也密不可分。”
在临床环节,除了数据解读之外更重要的其实是如何将结果解释给患者,让患者能够听明白。这一环节涉及到一个重要的环节——遗传咨询。
在欧美国家,遗传咨询早已成为专门的职业,管理机制也相对成熟——必须具有医学硕士或博士学位、专攻于遗传学理论和临床的执业医师,还要在经过两年的学习和实习才能取得资质,而国内尚未设立专门的学位。
2013年,复旦大学生命科学学院开展了一场遗传咨询培训,这应该是我国最早的关于遗传咨询的培训。华大基因于2011年开始着手自身遗传咨询团队的建设,2015年首次进行了对外的遗传咨询师培训。同年2月,中国遗传学会遗传咨询分会成立,标志着遗传咨询行业规范的初步建立。
3、根本问题:基因组学研究
“这些都是较浅层面的。”他稍微停顿了一秒,继续讲到:“从根源上讲,最重要的问题其实是我们对基因的理解程度还不够。”人类基因组有3x 109个碱基,我们真正理解的不到2%。此外,基因组的调控机制并不仅仅停留在二维层面,还有三维层面的空间结构和相互作用的影响。也就是说,并不能把基因简单理解为由“A、T、G、C”随机排列的字符串,不同的空间结构、甲基化、蛋白修饰都会影响到基因的最终表达。
“行业标准和数据库这些,通过投入人力物力和财力其实都是可以办到的,但基因结构的理解是必须下硬功夫的。”金鑫表示:“如果这个层面上没有突破的话,那我们就只能在原有已知范围内做有限的事情。”
成本降低是反向压力
“除了这些,上游测序的高成本其实也为目前的数据解读增加了难度。”这样的观点让记者很惊讶。
随后他解释道:“前面我们讲到数据解读的一个难点是因为目前积累不够。为什么积累不够呢——更多其实是因为目前数据产出的成本偏高,还不能让全部人接受。”
尽管目前全基因组的测序成本已经压到了1000美金以下,但对于大部分中低收入人群来说依然难以承受。让测序成本降低本身其实也是在加速数据积累,尽管一开始会造成数据处理环节的压力,但最终终会寻找到一个好的解决方案去应对这样的压力。这些数据又将帮助行业对基因数据有更深层次的理解,反过来促进数据分析和解读,最终形成良性循环。
因此,数据大量产出对于数据解读而言其实是一个反向压力。
2013年,华大基因收购CG后正式进军上游市场。如今,华大最新的测序仪已将个人全基因组测序成本降到了低于600美金。
“在这个基础上我们还将继续把成本降到更低,更多的人能够用得起。”金鑫表示:“同时华大基因也在降低数据处理环节的成本,在BGI Online上已经实现了在5-10小时完成人类全基因组标准分析,并将分析成本降低到了100人民币内。”
从产出到解读,华大基因布局全产业链
在数据分析环节,除了BGI Online平台,华大基因已具有一系列具有自主知识产权的分析软件,如SOAPdenovo、SOAPsnp、SOAPtrans、 SOAPfuse 等。
目前,华大基因已经开展了多项前瞻性试验,在1.5个小时内完成全基因组数据分析,同时通过硬件加速的方式在20分钟以内完成数据计算。“这些都是在降低应用方向上的成本”金鑫告诉记者。
华大基因数据版图
在数据解读环节,一方面,关于中国人群的数据库正在依托国家基因库构建,行业标准制定工作也在推进,在这些基础上华大基因也在开展一些前瞻性的探索工作。比如尝试通过人工智能进一步提高解读的自动化。
从最上游的测序仪、相关试剂,到中游的相关分析平台、一体机,再到解读工具和遗传分析团队。在金鑫的描述中,华大基因在数据处理环节的布局可谓无处不在,是国内为数不多的全产业链布局团队。“重要环节我们都是有投重金的。我们希望能把行业活化能降低,让更多的人才进到这个行业里来,做自己擅长的部分。”
写在后面
以往,华大基因给记者的印象是一个神秘的基因帝国、中国基因行业的黄埔军校。而通过与金鑫的交谈,记者所认识到的华大基因,既有多年前倾其所有参与人类基因组计划的科研精神,又有面对上游压制反向收购的霸气。
但更多看到的,是这个集产、学、研于一身的企业在基因领域的多年耕耘,从无到有,从有到强的探索。如今,中国基因测序达到国际水平,测序企业遍地开花,华大基因功不可没。尽管如此,基因组学还有很多未知的数据价值,华大基因仍旧走在时代前列,继续探索和挖掘。
医谷链
来源:动脉网 作者:周梦亚