11月1日,在 由新华网与南京市经济和信息化委员会主办的首届中国智谷大会人工智能与产业创新高峰论坛上,生物信息学家、中科院院士陈润生做了了题为《大数据与精准医学》的演讲。陈润生院士认为,随着人工智能和大数据等技术的应用于医学领域将会推动精准医学的发展,在疾病发生之前进行采取针对性的措施,从而改变医疗健康的概念。同时,人工智能和大数据也对研究我们遗传信息中97%的、我们尚未了解的“暗物质信息”起到关键作用。总体来看,精准医学才刚刚上路,还存在很多的机会。
以下是陈润生院士演讲全文,雷锋网在现场实录基础上进行了不改原意的编辑:
尊敬的各位专家、各位领导、非常荣幸能参加这个会,我想今天我就大数据和精准医学谈一个看法,因为现在大家知道,精准医学非常热了,虽然比起人工智能还是小弟弟,但是我们知道,2005年1月20号美国总统奥巴马在他发表的美国要开展精准医学研究,从那以后,精准医学就在全世界得到了普遍的重视,在很多发达国家包括我们国家不仅仅是大家都很关心的一个领域,我们国家领导人也多次对于精准医学的发展都有重要的指示,而且在资助上也有具体体现。所以我今天主要谈精准医学的四个方面问题,一个是跟大家交流,也希望展开一些讨论。
1. 精准医学是组学大数据跟临床医学的结合
第一个问题,精准医学的本质是什么,核心是什么?我看到国内有各种各样的评论,关于讨论精准医学的内涵,各种观点都有,我自己觉得,精准医学的核心其实就是一点,非常明确,就是组学大数据跟医学的结合,说得更具体一点,就是组学大数据跟临床医学的结合。也就是说,把组学大数据用到临床的医学当中来,提高医疗诊断的准确度,提高治疗的效果。
这里又包括两层含义,一个含义是组学大数据,另外一个含义是医学。那么组学大数据又包括两层含义,一个是组学,一个是大数据,我们知道,近年来,随着临床研究的发展,我们获得了越来越以基因组为代表的分子水平的人类信息,这个是以前前所未有的。那么,随着以基因组为代表的组学数据的发展,人们越来越多的积累了以遗传密码为代表的不仅仅是基因的信息,也包括蛋白的信息,那么后来,人们发现,挖掘这些信息以后会得到很多的反映人类健康和疾病的信息。所以有人提出,如果把这些信息应用到临床当中来,一定会提高临床的效果,这就是所谓精准医学的本质含义。但是,只获得这些遗传密码的信息是不够的。
大家知道,所有遗传密码的信息都是非常非常多的一个大数据,这个大数据大家是很容易测得的,包括我们现在知道在我们国内,每个人花一万块人民币就可以得到你的遗传密码,但是你得到你的遗传密码你是一点都不懂,因为这只有四个字(A、C、G、T),所以要读懂他,你就要发展大数据分析的理论方法和技术。所以,那么要把这些组学数据用大临床当中来,必须是组学数据和大数据分析方法的结合。所以一部分是组学大数据,一部分是医学,两个结合起来,就构成了现在精准医学的本质和核心,这是第一个问题。关于精准医学的本质,他也是自上世纪90年代由于组学数据用到临床当中,发展转化成转化医学,个体化医学,现在从2011年有出了精准医学的名称,但不管怎么说,都是他的本质是清楚的,就是组学大数据在临床医学当中的应用。
2. 精准医学有可能改变医疗健康的基本概念
第二个问题:精准医学能够使医学带来哪些本质的变化。如果精准医学只是把医学提高一点点百分数的话,我想,那么精准医学就不一定会引起更多领导人的注意。就精准医学的内涵,一定会有一些本质上的变化,那么这个本质上的变化是什么?我们也用一句话来说,精准医学他的本质上所以引起各国领导人的重视,是精准医学有可能改变医疗健康的基本概念,也就是说,促使医疗的基本概念从当前的诊断治疗转变成健康保证。
我们知道,现在的医疗体系面对的是病人,那么他主要是对病人进行所谓的治疗,但是,未来因为精准医学的发展,由于组学大数据的介入,那么就会使得这个时候的健康不仅仅是对病人,而是对全民,对任何人在他没有得病的时候我们测量他的组学数据,分析组学大数据,那么就可以对他未来健康发展的危险因素做出评估,根据评估进行适当干预,这样的话有些疾病不发展,有些疾病减轻他的程度,提高他的生活质量,这样就把整个医疗健康体系的关口前移,在没有病之前就提出评估与保证。
这样一个根本性的概念的转变,有人认为,有可能导致一些新兴产业的出现,有人预估,跟所谓精准医学相关的这个概念转变导致的新型,也许到2018年也许到2千亿美元的转变,也就相当于将近2万亿人民币,对GDP就有影响。这种有精准医学带来的本性概念的改变由此促使的产业的发展当然会引起各国领导人的注意,这是第二个方面,关于精整医学他可能带来的一些本质变化的估量。
精准医学研究已成为新一轮国家科技竞争与引领国际战略的制高点。大家知道美国要测量100万自然人的遗传密码,欧盟也在积极推动所谓精准医学的研究,包括英国、法国等等,日本也在进行精准医学相关的投入和计划。那么精准医学我们如何仔细分析,他可能在哪些方面促使产业的变革和发展呢?我想至少在四个方面:
第一个可以促使海量的生物样本库和数据库的发展。大家知道,由于精准医学的推动,那么需要测量百万人量级的这些人的组学信息,首先涉及到这百万人生物样品的获取,保管、提取和提供给这些人使用,这当然是一个很大的产业。同时,这些样本测完了数据是百万人数量级的一定要促进相应的大规模的数据库的发展,有人估计,这个产业的规模可能是百亿数量级。
第二个有了这些样品,那么就要测以基因组为代表的这些组学数据,所以就要测基因组、蛋白组、转录组,这些测序的数据,仅仅到2018年,就可以到117亿美金的规模。那么有了样本库,有了组学数据的测量,那么下一步在这些海量数据挖掘的基础上,就可以促进产生大量的新的分子诊断的指标。我们知道,就会增加很多跟疾病相关的信息,这些信息当中,有很多就可以作为新的疾病的标记。同时,也可以发现很多新的药物设计的靶点,这就促进了第三个产业,也就是所谓分子诊断和药物设计靶点的相关产业。
第四个当然伴随着精准医学概念而产生的新的医疗设施,比如说要成立一些健康源,要一些健康师,这些方面是可以和现在医院、医生相关系的产业大概是千亿数量,这些产业必然会带来变革,国内已经有所体现,有成百上千个小的公司在逐渐地成立了。当然他们怎么来更好的发展,有待讨论。
我们国家的精准医学发展目标我不赘述了,跟国际是一致的,这第二个方面,精准医学可以带来哪些本质的变化,如何促进产业的发展,在那几个产业发展可以带动或引导。
3. 如何才能精准?
第三个我要说一个问题是要实现精准医学,要做哪些点?做到哪些点,才能做到精准?那么精准医学我觉得至少要具备两个条件,第一个,要具备组学大数据的基础,我们知道,精准医学就是把组大数据用到临床当中来,所以第一个你要获取组学大数据,那么也就是获取基因组,蛋白组、转入组、代谢组等等这些组学数据,这些数据本身是没有用的,第二步就是组学数据的挖掘,挖掘的话就会用到大数据分析的理论方法,包括刚才张钹院士讲的人工智能的方法,深度学习的方法等等,以知识为基础的方法用来挖掘这些组学,以获得在分子水平上跟疾病相关的知识,这是第一个基础。
有了这些分子知识和组学知识的用到临床疾病当中来,还要建立第二个基础,就是搭建分子水平的以基因型为代表的信息核,建立这种桥梁之后才能有效把分子水平的信息转化应用到疾病的诊断和治疗当中来,那么这就是要建立所谓生物信息学、生物网络,系统生物学等等的方面,有了这两个基础我们就可以更好地实现精准医学,当然一个非常重要的就是精准医学的发展,是应当和当前的临床的影象学、临床的生化检验、当前临床的知识很好地融合下,并不是有些公司他测的序什么都决定了,实际上不是那样,是应该更好地结合起来才能更好做到精准。精准医学只是把新的数据应用在原有的数据上使得更好地提高。
4. 精准医学才刚刚上路
第四个说的精准医学现在在什么阶段,发展到什么阶段?大家知道,可能我们目前精准医学成为大家的热词以后,大家认为我们现在什么都可以精准,医学很容易精准了,我个人的观点,精准医学其实虽然是本质上可能带来变革,可能引导新的产业的发展,也许产业规模是巨大的,但是现在才刚刚上路,才刚刚开始!为什么?是在精准医学的概念下,我们目前依然存在着巨大的挑战,我们依然存在着巨大的困难。因此,我下面会举一两个例子来说明精整医学目前存在什么样的困难?
为什么说精准医学才刚刚上路呢?我们的创新的机遇在哪里,我们迎接挑战在哪儿?我拿组学当中只举一个例子,在我们的临床密码当中,在我们的组学当中,目前,还存在着大量的暗信息,所谓我们的自己的遗传密码目前我们能够从规律上分析的只有一小部分,其他还不能分析的就是基因组当中的所谓暗信息。我们一个人的遗传密码信息是3*10的九次方,如果装订成册,每3千个字符一页,100页装订层一册,那就是一万册。如果一万册书每一册一厘米,我们自己的基因密码书就是就是一百米,大家可以想像,你自己的遗传密码从地面上排到四十层楼房那么高,如果你全部读懂了,你就精准。我相信没有谁能精准,我现在要告诉大家的是集全世界科学家的智慧,包括生物医学家的智慧,这本天书世界上能够从规律上了解的部分只有遗传密码的3%,另外的97%实际上集目前全世界的智慧还不懂。迄今为止我们的遗传密码97%是暗的,我想在下面给大家做一些展开性的说明。
首先从遗传密码来讲,我们其实,我们的97%的遗传密码,从总体,从规律上来讲,我们人类还不了解,那3%我们了解的是从中学大家就知道的,尊从中心发展的蛋白质信息,那3%就是造蛋白质的遗传密码,我们知道他的归类了,也知道他的信息,但另外的97%的遗传密码是跟制造蛋白组无关的,这些信息,迄今为止我们不知道他做什么用的,这就是遗传密码当中的所谓暗物质,也是遗传密码当中的非编码序列,那么这个概念,大家可以想一想,当我们测遗传密码,而97%的密码还不知道的情况下我们如何做到精准呢?所以离精准还差了很很大的距离。
进入21世纪科学家提出问题,说这些我们还不了解的、占人类基因组97%的暗物质遗传密码,那是否有转录产物,是否有信息发放?换句话说,他是否在活动,在行使功能呢?这个结果是100%肯定的,这些非编码序列和我们制造蛋白的那些基因一样,每时每刻都在表达,每时每刻都在起作用,所以他们也是真正地完成生物学功能,那么这些东西我可以举几个例子说明,他跟肿瘤的关系,当然,虽然我们不全部了解它,但是已经有些支离破碎的例子说明他的生物学功能。比如说有一个来自97%的这样一个产物,它叫PCGEM1,可以导致前列腺癌,不是由于蛋白引起的。还有MALAT-1,它可以导致非小细胞肺癌,我们大家知道我们国家肺癌是增速中,我们现在临床医院当中,检测肿瘤用的指标都是我讲的3%,而治疗的靶点你用的药物也是对那3%,我现在告诉你,那97%,有很多例子证明,他也与肿瘤有关,但从来没有纳入到我们临床之诊断和治疗当中来,你想这个肿瘤能治得好吗?你没有考虑他,当然没有想到检测和治疗他,就是说,我们还有一个97%与疾病情况有关的东西迄今没有那么融入到我们诊断治疗的视野当中,这就是精准医学面临着组学的所谓的暗信息的巨大挑战。
我们知道那个97%(的遗传暗物质信息)是和我们疾病,和我们的健康息息相关。我们有多少这样的编码没有发现呢?我们大概有25000个基因,那些97%的我们现在能不能评估一下,他有多少原件呢?因为伦理上的原因对人我们还不知道,遗传研究所对老鼠做过研究,把所有的原件都拿来,管你是编码还是非编码,一共发现的18万1千个,这是在老鼠里面真正执行功能的原件的下限,实际上一定会比他大,在这里发现,产生意义的3%决定了两万个原件,换句话说我们还有16万1千个(非编码RNA)来自那97%,这16万1千个据我所知,目前我们全世界科学家解析了大约1千个,换句话说,还有16万个机会,有太多的机会有些非常重要的元件功能的发现。这些领域2016由这两位就是在那97%研究当中,我曾经开过一个玩笑,大家算算,从1900年研究那3%大约缔造了50名诺贝尔奖获得者,现在知道了还有97%,97比3,那个大约是1300左右,所以我们有一千多个机会在这个领域做出诺贝尔奖级别的原创性特殊贡献,而只有一个位置被占据,所以我们还有巨大的机会。
因此,我们从精准医学来讲,我们现在其实不能做的精准是因为有一个巨大的大数据,只是指他的内涵并没有被挖掘,但是另一方面,他可以给我们提供一个全新的机会,不管对技术研究还是产业发展都有巨大研究,所以对非编码的研究无疑会对疾病的诊断治疗提供全新的诊断方向,或者对药物的设计研发提供新的平台,对新的物种,新的性状的培育提供一个新的基础,对于组学的方向有很多,精准医学其实才刚刚开始。
大家都是大数据的专家,我想我只能非常快的说说题目,其实对大数据的分析,依然存在着有些核心的挑战,第一个数据量大,大家知道,现在的测序仪一个普通的一次运行就可以到1T的数据,全世界有成千上万个这样的仪器,包括我的组里就有所谓的得到一个T的数据,所以这些数据量是非常大的。那么每个人有3×10的九次方。这个数据告诉大家,从数据质量来讲,他的噪音很高,同时又大量缺失值的这样一个数据源。第二个样本很小,我们要解决肿瘤的问题,但是我们知道肿瘤的变量,自变量可能成前上万,但是我们取样本只有百数量级,因此我们为什么要测,比方要研究肿瘤或者是心脑血管病,他的自身变量千数量级,我们的百万级,就像政府,测一百万人总够了,第二个,我们建立合适的数学模型,借助人工智能和机器学习等方法,使得我们能够相匹配。大家知道不仅仅是组学数据,也还有生物学数据,更需要我们不仅仅是科技界,企业界,我们知道我们国内数据共享存在基本一个重要的问题,如果一个数据共享问题不解决,我们就是在大数据时代做小数据的工作,发表小数据的企业,显然不能适应国际竞争的态势。
后面我讲的很粗糙,对不起,占用大家的时间,谢谢!
在陈润生院士做完演讲后,雷锋网记者也对陈院士进行了短暂采访:
问:精准医疗目前最主要的挑战在哪里?
答:我们的挑战很多。精准医疗的基础是组学大数据,包括组学和大数据都存在着挑战。比如组学,我们很容易测量得到数据,但对数据的内涵大部分我们并不知道。从大数据的挖掘本身也有很多问题,今天没有时间展开讲,包括数据本身生物学含义的挖掘,包括数据样本、数据集本身的缺陷比如说缺失值,还有原件之间的相互作用等,都依然存在很多问题。但从另外一方面讲这是机会,我们对于未知数据的研究,了解一点,我们就可以推进一点,然后应用一点,从而推动整个精准医疗的发展。
问:我们进行精准医疗研究的条件和国际相比如何?
答:最近这么多年,我们国家对精准医疗的重视、包括对基础研究方面的投资,实际上从技术条件和研究上来讲并不存在根本困难,困难来自于科研当中的组织等各种方面的问题,以及基础研究如何从思想上来提高创新意识。从发表论文方面,我们是仅次于美国的第二名,但重要的是做到自己的独创性研究,而不是跟随。
问:您有提到“需要百万级别的样本”,我们已经知道像Deepmind、23andme等企业已经在与卫生部门和医院合作获取百万级别的样本数据,我们国内有类似的例子吗?
答:国内有一些项目,如精准医学研究的计划就计划测100万数据,而且也在进行中。但是我觉得测哪个100万数据并不重要,重要的是我们有很多数据,需要有一个机制去整合起来,这样比你不断测试新的数据更重要。
嘉宾简介
陈润生,生物信息学家,中国科学院院士。现为中国科学院生物物理研究所研究员、博士生导师。国际人类基因组组织(HUGO)会员。在基因标注、生物进化、SNP数据分析、生物网络、非编码基因等方面进行了系统、深入的研究,曾参加我国第一个完整基因组泉生热袍菌 B4基因组序列的组装和基因标识,曾参加人类基因组1%和水稻基因组工作草图的研究。近年来主要从事非编码RNA的系统发现与功能研究。
来源:雷锋网 作者:AI科技评论