给你一段5分钟的录音,从这段录音里你最多能够获得多少信息?根据威斯康星大学麦迪逊威丝曼中心和威斯康星发现研究院的最新研究表明,仅靠5分钟的谈话就足以判断某个人是否易患遗传疾病以及相关的并发症。
早这项刚刚发表于《Scientific Reports》的研究中,研究人员利用机器学习能力分析了数百种语音记录,并能够准确地识别个体的突变前期的脆弱的X染色体,具有这种特征的染色体会增加神经退行性疾病、不孕不育等病症的风险,此外,携带该染色体的人群的后代容易发生X染色体易损综合征。
X染色体易损综合症的主要特征是智力和身体残疾,目前全世界数百万人都具有突变前期脆弱的X染色体。作为该研究的参与者,威斯康星大学研究生院副院长Marsha Mailick教授说:“这些处于突变前期的病症仍并没有被有效的诊断,人们通常不知道他们的患病风险增加了。”
对突变前期脆弱的X染色体进行诊断是一项困难的工作,该工作极为耗时并且需要大量的资源导致价格昂贵。“我们的研究小组希望开发一种快速、经济、有效筛选方法,”Mailick说。正是应着这样的诉求,他们开发了机器学习-人工智能计算程序。这个新型的机器人可以通过现有数据进行“训练”,随后去分析新信息。
威斯康星大学生物医学工程系副教授Kris Saha认为:“最初,我们要花费数小时的时间来分析和注释每个记录,通过这样的大量的工作,最终使用它们的时候只需要不到一秒钟。”
Mailick及其同事在之前的研究中已经表明,系统的进行语音记录分析,可以产生有价值的关于具有突变前期脆弱X染色体的家庭的信息。2012年,威斯康星大学副校长Jan Greenberg领导的一项研究分析了五分钟的母亲谈论他们的患有X染色体易损综合症的孩子的语音记录。研究显示,父母营造的温暖、积极的家庭氛围能够减少孩子的行为问题。
威斯康星大学通讯科学与病症学副教授Audra Sterling选用了相同的录音进行研究,结果表明在具有突变前期脆弱X染色体的中年和老年妇女群体中,年龄和言语障碍有强烈的相关性。这些研究结果表明,录音可以跟踪具有突变前期脆弱X染色体的老年人的疾病发展进程。
Mailick说:“以往进行语音特征编码十分耗时且需要临床专业知识,但新的研究中所使用的方法不需要这些特性。”Saha、Greenberg、Sterling、Mailick和研究生Arezoo Movaghar联合设计了初始的机器学习算法,该算法可以智能的将患者区分为两组:患者有携带脆弱X染色体的母亲和未携带的母亲。
研究人员先分析了100个5分钟的具有脆弱X染色体的母亲所谈论的具有X染色体易损综合征的孩子的录音,随后分析了另外100个自闭症谱系障碍儿童的母亲的录音。
基于录音和机器学习算法,研究人员创建了语言和认知功能的列表,例如记录中的句子的平均长度或填充暂停的数量,例如“啊”或“哦”的发音方法,这些特征可以非常有效的区分两组的不同。目前根据这些显著的特征,机器学习算法可以达到81%的区分准确性。
根据研究人员的测算,与单独使用基因检测相比,使用机器学习的筛查方法在人群中诊断出1000名具有突变前期脆弱X染色体的患者可以节省超过1100万美元。Mailick说:“这项工作是迈向更快、更具成本效益的筛选过程的第一步。我们计划扩大对其他人群的筛选,例如具有脆弱X染色体的男性。”
Saha说:“本研究中开发的机器学习算法不局限于脆弱X染色体诊断,未来其他疾病的诊断也可能用该算法实现。”Movaghar表示:“我们希望简化收集数据的方式。”Movaghar正在致力于开发移动应用来完成这一目标。该应用会问一系列简单的个人和医疗问题,然后记录一个五分钟的语音样本,数据甚至可以来自智能手机或家庭智能扬声器中的音频记录。
参考资料
《Machine learning can detect a genetic disorder from speech recordings》
来源:ScienceLondon未止科技(微信号 science_london)