南加州大学的研究员们开发出了一套新的机器学习工具,可检定抑郁症患者中特定的语音特征,从而辅助诊断。这套工具名叫SimSensei,在面诊过程中会倾听病人的声音特征,有心理障碍或神经疾病的人会降低他们的元音发音,这可能让诊断人员听得不够清楚。这个思路(当然)不能代替原先的人为诊断方案,但是它可以为诊断过程增添辅助的、客观的有分量的资料。
抑郁症误诊是医疗领域的突出问题,尤其是初级保健医生经常会犯这种错误。2009年,一份覆盖50,000位病人的元研究发现,医生鉴别出抑郁症的正确率只有大约50%,而且误报率(将未患抑郁症的人诊断为患者)超过了漏报率(将患上抑郁症的人诊断为正常),两者比列大约是3比1。这绝对是不能接受的。
但这也是无可厚非的。医生(尤其是全科医生)在相当程度上会过度诊断疾病,其原因有两点:第一,相比于将有病诊断为无病,错误地将无病诊断为有病近乎是更加安全的;第二,每一次诊断中都面临着各种可能性,消除其中的不确定性需要更多的专业知识以及更多的自信。
诊断抑郁症的一大难题是,抑郁症是一种极其异源的疾病(heterogenous disease)。它有多种多样的病因,还有多种多样的表现形式。一位初级保健医生每周可能接待上百位病人,接触到各种疾病,而且他们要从病人自我报告的诸多异常症状和基于面谈的观察中总结出精神病诊断结果,这其中的挑战可想而知。所以,像SimSensei这样的工具才存在巨大的发展空间。SimSensei追踪语音中和抑郁症有关的变化,并详尽地记录下来。“先前的研究揭示抑郁症患者经常表现出平淡或消极的感情反应、语调没有什么变化、音强和音高是单调的、语言活动减少、语速减慢、停顿时间增长以及停顿时长经常变化,”南加州大学的一篇相关论文写到,“此外,研究发现在抑郁状态下的发音表现出声道和声带的拉伸程度增强了。”
对于基于噪声数据做出预测的机器学习来说,这明显是一个问题。一般而言,语音分析是此领域主要关注的问题之一。
这套工具所做的分析表面上看来是十分简单的。它简化病人的语音,只保留元音,然后分析元音 a,i 和 u 的第一和第二共振峰(谱峰)的频率。这个分析过程的前两个部分涉及的仪器是真实语音检测器和伴生的共振峰跟踪器。第三个部分是算法,其实它是一种历史相当久远的机器学习方法(产生于 1967 年),被称为k- 均值算法。其基本工作方式是抓取数据集,将它们划分到以某均值为中心的不同簇集中去。
聚类的结果是一个三角形空间/图形,在每一个拐点处是元音 a, i 和 u 的谱峰。三角形内部的区域代表元音空间,而这就是这种算法要计算并呈现出来的。其呈现出来的空间然后与作为参考的「标准」元音空间比较,用比例方式表示测出来的抑郁(和创伤后应激障碍)指标。
“我们在拥有253个被试样本的实验中衡量自动化评估元音空间的结果,发现对于报告有抑郁症和创伤后应激障碍症状的被试对象,这种新颖的方法能探察出他们元音空间的明显减少。”南加州大学的团队总结到,“我们的研究证明,在分析全部对话的一部分或有限数量的语音数据时,这种测试是可靠的,这意味着这种算法是实用的。最后,我们成功揭示了在不同人口统计学数据和发音速度上,这种测试都具有较好的统计鲁棒性。”
分析得到的结果显示,抑郁症患者和非抑郁症者,他们的元音空间率并没有太大的区别,但是其间存在的区别足以说明问题。该研究最显着的问题可能是根据被试对象的自我报告评估而对抑郁与非抑郁进行初步分级。另外,元音空间的减少可能不能完全归于抑郁和创伤后应激障碍,未来还将研究精神分裂症、帕金森症等疾病条件下的语音数据。
来源:MotherBoard 作者:Michael Byrne 编译:机器之心