深度学习遇上基因组,诊断疾病或迎来突破

医疗健康 来源:机器之心 Synced
2016
05/05
17:39
机器之心 Synced 医疗健康

这篇访谈要点如下:

深度学习在基因组医学领域的应用已经迈出通往希望的第一步,这一应用可以对诊断、重症护理、制药和保险方面产生影响。

「基因型—表现型」鸿沟——我们能将基因组学与疾病表现型联系起来——正阻碍基因组学深入挖掘医学领域的潜力。

深度学习可以弥合「基因型—表现型」鸿沟,通过吸收指数级增长的数据量,解释将基因型与表现型关联起来的复杂生物过程中的多层结构。

深度学习已经成功应用于人类天生擅长的领域,比如,图像、文本以及语音理解。然而,人类意识却不能理解基因组。为此,需要使用「超人智能」来解决这个问题。

这一领域的研究必须能够解释深层生物学机制;过度简化或者「黑箱」研究方法,价值都将有限。

从你的背景开始谈起吧?

1997年,我在 Hinton 的指导下完成了自己的博士学位。我们合着了一篇关于深度学习的论文(1995年发表在《科学》上),也是最早的深度学习研究论文之一。这篇文章可以说是近期许多无监督学习以及自动编码器研究的先驱。当时,我关注的是计算机视觉,语音识别以及文本分析。也研究深度结构中的信息传递算法。1997年,David MacKay 和我合作了第一篇有关「环路信念传播(loopy belief propagation)」或 「合积算法( sum-product algorithm )」的文章,这篇文章出现在了顶级机器学习会议 NIPS 上。

1999年,我成为 Waterloo 大学 的一名计算机科学教授。2001年,加入多伦多大学,与其他几位教授一起,共同成立了机器学习小组。我们的团队研究深度结构中的学习和推论,使用的是以变分方法、信息传送以及马尔可夫链蒙特卡尔理论(MCMCA)模拟为基础的算法。多年来,我教授了十二门有关机器学习和贝叶斯网络的课程,学生总计一千多人。

2005年,我成为 CIFAR 神经计算项目的高级学者,这是一个与业内带头人分享与合作的良机,比如,Yann LeCun,、Yoshua Bengio、Yair Weiss, 以及项目主管 Geoff Hinton 。

为什么从基因组学入手?

与个人经历有关。2002 年,也就是履新多伦多大学教授几年后,当时我得知我妻子怀着的胎儿在基因上可能存在问题。但是,我们的顾问也没把这个问题解释清楚:她只是暗示说,要么没什么问题,要么可能会有严重问题。那次经历,因为很多原因而变得极其困难,也给我职业生涯植入一条深深的信念:我主要研究如何识别 YouTube 视频里的猫,但是,全面考虑一下,它似乎不那么重要。

我从中得到两个启示:首先,我想使用机器学习改善那些面临类似基因问题人群的生活。第二,减少不确定性,价值巨大:给某个人一些信息,好或者坏,让他们做出相应计划。相反,人们很难处理不确定性。因此,我调整了研究目标。我们转向关注使用机器学习理解基因组运作原理。

为什么你会认为机器学习再加上基因组生物学会很重要?

基因组生物学这个领域,正在生成大量数据。很快,你就能通过手机大小的设备给自己的基因组排序,整个过程也不长,就是走到街角商店的时间。然而,基因组只是一部分,还有海量描述细胞与组织的数据。我们,作为人类,无法很好领会所有这种数据,仍不十分了解生物学。机器学习有助于解决这个难题。

同时,机器学习界的其他人也承认这一需求。去年机器学习顶级会议上,Yann LeCun、Demis Hassabis、Neil Lawrence(谢菲尔德大学教授)以及 Kevin Murphy(谷歌)也认为,医学领域会是下一个深度学习前沿。

为了成功,我们需要弥合「基因型—表现型的鸿沟」。基因组和表现型数据很丰富。不幸的是,有意义地联接这些数据的最先进的研究,却让文献检索以及湿实验室试验的过程变得缓慢,昂贵而且不准确。为了完成这一闭环,我们需要可以确定间接表现型(亦即,分子表现型 molecular phenotypes)的系统,作为从基因型走向疾病表现型的垫脚石。为此,机器学习必不可少。

相关概念

基因型(Genotype)指的是一个生物体内的DNA所包含的基因,也就是说该生物的细胞内所包含的、它所特有的那组基因。基因型对一个生物的发展有极大的影响,但是它不是唯一的因素。

表型(Phenotype),又称表现型,对于一个生物 而言,表示它某一特定的物理外观或成分。一个人是否有耳珠、植物的高度、人 的血型 、蛾的颜色 等等,都是表型的例子。表型主要受生物的基因型和环境影响,表型可分为连续变异或不连续变异的。前者较易受环境因素影响,基因型上则会受多个等位基因 影响,如体重 、智力和身高 ;后者仅受几个等位基因影响,而且很少会被环境改变,如血型、眼睛颜色 和卷舌的能力。

分子表型(molecular phenotype)。我们可以从不同层次的窗口观察生命的表现,从原子水平、分子水平、细胞水平、个体水平、群体水平、生态水平等。通常,观察的记录可以叫做表型(phenotype)。近年来,从我们肉眼看得见或常规仪器可测的表型(比如身高、体重),到肉眼看不到、需要特殊仪器测定的表型,表型的内涵已经有了极大的发展。统计/数学下的表型机理 ,就是分子表型。

新一代年青的研究人员出现了,他们使用机器学习研究基因如何影响分子表现型,比如,斯坦福的 Anshul Kundaje 团队。这里仅提及几个未来的带头人:多伦多大学和哈佛大学的 Andrew Delong、Babak Alipanahi 以及 David Kelley ,他们研究蛋白质和 DNA 的相互作用;MIT 的 Jinkuk Kim 研究基因表达以及华盛顿大学的 Alex Rosenberg ,他正在研究试验方法,检测数以百万的突变及其对剪接的影响。我也很激动地看到,这个领域创业公司正在兴起,比如 Atomwise, Grail 及其他公司。

当你开始基因组领域的研究时,当时的研究现状如何?

研究人员使用着各种简单的「线性」机器学习方法,比如支持向量机和线性回归,后者可以根据病人的基因表达模式预测癌症。这些技术,从设计上看,比较「浅显」。易言之,针对某个类别标签,每个模型输入都会得到一个非常简单的「支持」或者「不支持」。那些方法并不能解释生物学的复杂性。二十世纪九十年代和二十一世纪早期,隐马尔科夫模型和相关分析序列的技术开始流行起来。Richard Durbin 和 David Haussler  带领着这一领域的研究团队。

与此同时,MIT 的  Chris Burge 团队开发了一款马尔科夫模型,可以检测基因,推断基因的开始以及不同部分(基因内区和外显子)的界限。这些方法仅对低层次的「序列分析」有用,无法弥合基因型与表现型之间的鸿沟。一般说来,当时的研究状态就是这些根本浅显的方法驱动的,这些技术无法充分解释深层次的生物学机制,比如基因组文本如何转变为细胞、组织和器官。

开发足以解释深层生物学的计算模型,意味着什么?

将基因型与表现型关联起来的最受欢迎的方式之一,就是在所谓的全基因组关联研究( a genome-wide association study , GWAS)中,寻找与疾病相关的变异。这种方法也比较浅显,在某种意义上,让从某个突变到基因表现型之间还有许多生物学步骤大打折扣。这种研究方法能够识别出可能重要的 DNA 区域,但是,他们识别出的几乎所有突变都不是偶然的。在绝大多数情况下,如果可以纠正突变,它就不会影响到表现型。

还有另一种非常不同的办法,可以解释间接的分子表现型。比如基因表达。在一个活体细胞中,当蛋白质以某种方式与基因的上游序列互动  ——比如,启动子(promoter)。一个尊重生物学的计算模型就能吸收这个启动基因表达的偶然性链条。2004年, Beer 和 Tavazoie 写了一篇论文,我认为这篇文章很有启发性。他们试图根据启动子序列,通过被当做源自启动子序列的输入特征的逻辑回路,预测每个酵母基因表达水平。最终,他们的方法没有成功,但是一次很棒的尝试。

我们团队的研究方法就是受到这两位研究人员的启发,但是,有三方面的不同:我们检测了哺乳动物细胞,我们使用了更先进的机器学习技术,关注剪接,而不是转录。回想起来,这一最后区别是一次偶然的转变。转录要比剪接难模拟得多。剪接是一个生物学过程,基因的某些部分(基因内区)被去除,剩余的部分(外显子,基因中有编码蛋白质功能的部分)联系在一起。有时,外显子也被敲掉了,这能对表现型产生主要影响 ,包括神经功能障碍和癌症。

为了用机器学习破解剪接规则,我们的团队与优秀实验生物学家 Benjamin Blencowe 领导的团队合作。我们建立了一个框架,从基因序列中提取生物学特征,预处理噪音性质的实验数据,训练机器学习技术预测 DNA 的剪接模式。这项研究工作很成功,有些成果都发表在了《自然》和《科学》上。

基因组学与其他应用领域有什么不同?

我们发现,较之视觉、语音以及文本处理,基因组学面对的挑战,与众不同。许多视觉方面的挑战依赖这样一个假设:要被分类的目标占据输入图像的大部分面积。在基因组学方面,相关目标仅占据微小部分——比如,输入的百万分之一,因此,会产生问题。易言之,分类器按照信号总量起作用。其他任何事情都是噪音——有很多噪音。更糟糕的是,这是相对结构化的噪音,包含了其他、更大的与分类任务无关的目标。那就是基因组学给出的难题。

还有更加让人担心的复杂性,我们自己都不清楚基因组。当检查一个典型图像时,我们自然而然地识别出其中的物体,我们也知道想让算法识别什么。这也被应用于文本分析和语音处理,这些领域中,我们都在处理真相问题。与此形成鲜明对比的是,人类本身并不善于解释基因组。实际上,这方面表现的很糟糕。所有这些都是在说,我们必须向真实的超人人工智能求助,克服自身局限性。

能多介绍一点你在医学领域的研究工作吗?

我们开始训练系统,让它在不包括任何疾病数据的情况下,预测分子表现型。然而,一旦系统得到训练,我们意识到,我们的系统实际上可以准确预测疾病;它明白细胞如何读取DNA序列,如何将它转变为关键分子。一旦有了关于这些情况如何正常运作的计算模型,那么,你就能通过它来侦测什么时候情况走偏了。

然后,我们将系统转向用于大规模的疾病突变数据组。猜测DNA里存在某种特殊突变。我们输入了突变的 DNA 序列及其对应的非突变部分,然后比对两组输出,也就是分子表现型。如果观测到了一个大的变化,我们会将这个突变标签为具有潜在致病性。结果表明,这种方法很管用。

但是,当然,这个办法并非完美无缺。首先,变异可能改变分子表现型,但是不会致命。第二,突变可能不会影响我们正在模拟的分子表现型,但会以其他方式致病。第三,当然,我们的系统不是百分百正确。尽管存在这些不足,我们的方法能够准确区分疾病与良性突变。去年我们在《科学》和《自然 生物技术》上发表了论文,证实这一研究方法比其他竞争方法的准确性要高得多。

你们公司(Deep Genomics)的目标是?

背景知识

2015年夏天,Brendan Frey 教授的实验室创立 Deep Genomics 公司。他领导的实验室能使用深度学习技术,筛选海量以前未知的基因突变,找出致病的基因突变。2015年11月,Deep Genomics 公司宣布完成370万美元的种子轮融资,由位于湾区 True Ventures 领投,Bloomberg Beta 和其它投资方跟投。目前,这家公司已经与医院,生物科技创业公司以及制药公司展开合作,使用基因疾病患者的基因数据测试公司系统。Human Longevity 也于2015年8月成为 Deep Genomics 的客户,公司还与 SynapDx,多伦多应用基因组学中心建立了「合作伙伴」关系。

我们的工作需要各个领域的专业技术,包括深度学习、卷积神经网络,随机森林,GPU 计算,基因组学,转录组学,高通量实验生物学以及分子诊断学。比如,我们有 Hui Xiong , 发明了一种贝叶斯深度学习算法,预测剪接作用;还有Daniele Merico ,他研发了完整基因组测序诊断系统,这个系统已被用于儿童医院。我们也将继续招募这些领域的人才。

一般说来,我们的技术能从许多方面影响医学,包括:基因诊断,精炼药物靶点,药物研发,个性化施药,改善健康保险制度甚至合成生物学。目前,我们关注的是诊断方面,因为它是我们技术的直接应用。我们的引擎提供了一个丰富的信息来源,能以更低的成本做出更加可靠的诊断决策。

这个领域里,许多新兴技术会要求具有理解基因组内部工作原理的能力。比如,使用 Cas9 系统进行基因编辑。这个能让我们给 DNA「写信」的技术会是件大事。也就是说,知道如何书写并不等于知道写的内容。编辑 DNA 可能让疾病更糟糕。试想一下,如果你能用一种计算「引擎」显而易见地确定基因编辑后果。平心而论,那还很遥远。然而,那就是我们最终想要做到的。

来源:机器之心 Synced

为你推荐

“和合共生,健康共护”四价HPV疫苗男性适应证上市暨“HPV男女共防计划”启动新闻发布会成功举办,共筑HPV预防新生态资讯

“和合共生,健康共护”四价HPV疫苗男性适应证上市暨“HPV男女共防计划”启动新闻发布会成功举办,共筑HPV预防新生态

今日(1月18日),默沙东(默沙东是美国新泽西州罗威市默克公司的公司商号)举办的“和合共生,健康共护”四价HPV(人乳头瘤病毒)疫苗男性适应证上市暨“HPV男女共防计划”启动...

2025-01-18 18:31

四同药品价格治理已基本实现,正建设全国挂网药品价格一览表资讯

四同药品价格治理已基本实现,正建设全国挂网药品价格一览表

目前,我们正在建设全国挂网药品价格一览表,全量汇总展示各地挂网价格信息并对首涨、高涨幅等异常价格行为予以标识,敦促各地持续纠正不合理的挂网高价。

2025-01-18 12:15

关于丙类药品目录,国家医保局最新的思考与规划,2025年发布第一版资讯

关于丙类药品目录,国家医保局最新的思考与规划,2025年发布第一版

丙类目录与每年的基本医保药品目录调整同步开展,计划于今年年内发布第一版。

2025-01-18 11:34

2025年全国80%左右医保统筹地区基本实现即时结算,2026年底全部实现即时结算资讯

2025年全国80%左右医保统筹地区基本实现即时结算,2026年底全部实现即时结算

1月16日,国家医疗保障局办公室正式对外发布《关于推进基本医保基金即时结算改革的通知》。根据通知,以全国统一的医保信息平台为支撑,2025年全国80%左右统筹地区基本实现即时...

2025-01-18 11:20

2024年底,60岁及以上人口3.1亿,占全国人口的22.0%资讯

2024年底,60岁及以上人口3.1亿,占全国人口的22.0%

年末全国人口(包括31个省、自治区、直辖市和现役军人的人口,不包括居住在31个省、自治区、直辖市的港澳台居民和外籍人员)140828万人,比上年末减少139万人。全年出生人口954...

2025-01-17 14:56

赛诺菲荣膺“杰出雇主2025”桂冠,连续五年傲立榜首资讯

赛诺菲荣膺“杰出雇主2025”桂冠,连续五年傲立榜首

作为10多年来首个且唯一连续五年荣获此殊荣的企业,赛诺菲再次彰显了其在企业文化、人才战略、多元发展及员工培养等方面的卓越成就。

2025-01-17 11:02

又一款国产三代EGFR-TKI抑制剂获批上市资讯

又一款国产三代EGFR-TKI抑制剂获批上市

昨日(1月16日),据国家药监局官网显示,奥赛康药业的1类创新药利厄替尼片(limertinib ASK120067,商品名:奥壹新)获批上市,用于治疗既往接受表皮生长因子受体酪氨酸激酶抑制...

2025-01-17 10:31

增辉生命,默沙东中国再度荣膺“中国杰出雇主”资讯

增辉生命,默沙东中国再度荣膺“中国杰出雇主”

1月16日,由全球权威的杰出雇主调研机构(Top Employers Institute)颁布的“杰出雇主2025”榜单正式揭晓

2025-01-16 22:48

CDE:放射性治疗药物申报上市临床风险管理计划技术指导原则资讯

CDE:放射性治疗药物申报上市临床风险管理计划技术指导原则

本指导原则将针对上市后临床风险管理计划、说明书中安全性相关内容、 患者指导手册的撰写提供具体指导意见。

2025-01-16 20:41

全球首款狂犬病双抗药物国内申报上市资讯

全球首款狂犬病双抗药物国内申报上市

日前,据国家药监局药审中心网站显示,智翔金泰的1类新药斯乐韦米单抗在国内申报上市。

2025-01-15 17:02

国家市场监督管理总局发布《医药企业防范商业贿赂风险合规指引》资讯

国家市场监督管理总局发布《医药企业防范商业贿赂风险合规指引》

本指引所称的商业贿赂, 是指采用财物或者其他手段贿赂交易相对方的工作人员、 受交易相对方委托办理相关事务的单位或者个人、 利用职权或者影响力影响交易的单位或者个人,...

2025-01-14 23:38

阿斯利康与宜联生物达成临床研究合作,共同探索联合治疗创新方案资讯

阿斯利康与宜联生物达成临床研究合作,共同探索联合治疗创新方案

双方将共同启动一项多中心、开放性、I Ib期研究,旨在评估两款药物联合治疗在实体肿瘤患者中的安全性、有效性和药代动力学。

2025-01-14 18:36

医疗科技国际化之路:新加坡如何提供全链条支持?资讯

医疗科技国际化之路:新加坡如何提供全链条支持?

随着中国医疗科技领域的快速发展,越来越多的企业具备了国际化发展的能力,正在“走出去”开辟新的市场。

2025-01-14 15:56

NVIDIA与多家行业顶尖机构达成深度合作,共促医疗健康产业蓬勃发展资讯

NVIDIA与多家行业顶尖机构达成深度合作,共促医疗健康产业蓬勃发展

在日前举办的摩根大通医疗健康大会上,NVIDIA 宣布与多家行业领先机构达成合作,这类新的合作旨在通过加速药物发现、提升基因组研究,以及利用代理式和生成式 AI 开创先进医...

2025-01-14 13:26

老牌上市药企终止PD-1项目,计提资产减值准备1.75亿元资讯

老牌上市药企终止PD-1项目,计提资产减值准备1.75亿元

近日,丽珠医药集团发布公告称,对公司及下属子公司截至2024年12月31日合并报表范围内存在减值迹象的资产进行了减值测试,并对其中存在减值迹象的资产相应计提了减值准备。

2025-01-14 10:13

尊享e生2025升级:首次全场景放开外购药械,医院药品覆盖数量再增资讯

尊享e生2025升级:首次全场景放开外购药械,医院药品覆盖数量再增

1月13日,众安保险举办“与10光,共生长”尊享e生十周年产品升级发布会,正式发布尊享e生2025版,并推出众安健康险未来将主打的两大产品系列——面向健康人群的“尊享系列”,以...

2025-01-13 20:17

PLA材料的医美应用:安全与效果的双重考验资讯

PLA材料的医美应用:安全与效果的双重考验

聚乳酸PLA,作为医美行业面部填充剂历经了3个时代大约20多年的发展,大体可分为1 0、2 0、3 0三个不同的时代;即1 0-结晶片状;2 0-普遍表面粗糙的多孔微球或实心微球;3 ...

2025-01-13 19:53

国家医保局:开展2025年定点医药机构违法违规使用医保基金自查自纠工作,肿瘤类、重症医学类、麻醉类、零售药店典型问题清单资讯

国家医保局:开展2025年定点医药机构违法违规使用医保基金自查自纠工作,肿瘤类、重症医学类、麻醉类、零售药店典型问题清单

2025年3月底前,各级医保部门根据本地化问题清单,对辖区内所有定点医疗机构和定点零售药店2023-2024年医保基金使用情况开展自查自纠。2025年4月起,国家医保局将对全国定点医药...

2025-01-13 17:32

全球首个超长效PCSK9单抗获批上市资讯

全球首个超长效PCSK9单抗获批上市

瑞卡西单抗注射间隔可长达8周,突破了目前国内外已获批的PCSK9单抗需要每2周、4周或6周的注射频次。

2025-01-13 13:17

好大夫正式牵手蚂蚁集团,共同推进“AI+医疗”创新资讯

好大夫正式牵手蚂蚁集团,共同推进“AI+医疗”创新

蚂蚁集团收购好大夫在线尘埃落定。1月11日,在2025年好大夫峰会上,双方在收购完成后首度携手亮相。好大夫在线创始人王航现场表示,共同的使命和愿景让双方走到了一起,后续好大...

2025-01-11 18:05