深度学习系统变得越强大,它就越含糊。由于更多的特征被提取了出来,诊断本身变得越来越准确。然而为什么这些特征会从数以百万计的其它特征中被提取出来,这仍然是一个无法回答的问题。
棒球运动员一次又一次地抛了一百万次球,他可能不了解任何方程式,但是他知道球到底会有多高、能达到多大的速度以及它会降落到地面的位置。物理学家可以写方程式来判断同一件事物。但是二者终将殊途同归。——Geoffrey Hinton
去年 11 月深夜,一名来自布朗克斯的 54 岁妇女由于剧烈的头痛而来到哥伦比亚大学医疗中心挂急诊。她对急诊室的医生说,她的视力已经变得模糊,左手无力且伴有麻痹症状。医生检查后,对她的头部进行了 CT 扫描。
几个月后,今年 1 月份的一个清晨,4 名培训中的放射科医师挤在医院三楼的一台电脑前。这个房间昏暗无窗,仅有几丝光线从屏幕映出,就像被海水层层滤过。隔间里挤满了人,哥伦比亚大学的神经放射科主任 Angela Lignelli-Dipple 正拿着铅笔和 pad 站在他们身后;她正在培训他们如何看懂 CT 扫描。
她说:「一旦大脑不工作了,变成灰色,很容易诊断出中风。技巧就是把握好诊断时机:赶在神经细胞过量死亡之前进行诊断。」中风通常由堵塞或出血引起,神经放射学家有大约 45 分钟的窗口期进行诊断,以便医生采取干预措施,比如,溶解正在变大的结块。Lignelli-Dipple 继续说着,提高了决策时间所带来的巨大风险:「假设你正在急诊室中,每过一分钟,大脑的某部分正在死亡。失去时间就是失去大脑。」
时间一分一秒地流逝,她扫了一眼墙上的钟,问道:「问题究竟出在哪里?」
中风通常很不对称。血液会供给大脑的左右分支,而后会分解为细小支流;凝块或出血通常仅会影响其中的一个分支,导致大脑一部分出现异常。当神经细胞失去血液供应并死亡时,组织会略微膨胀,在扫描时,解剖结构之间清晰的边界可能变模糊,最终组织会皱缩,并产生干燥的阴影。但是,通常在中风后进行扫描的几小时甚至几天之后,阴影才会出现,此时诊断窗口期早就结束了。Lignelli Dipple 对我说:「在此之前,扫描时仅会出现很细微的迹象」,即中风前兆。
这名布朗克斯妇女的扫描图像是对头骨的横切面切割图,就像是从底部切到顶部的瓜。医师们像是翻查一本手册一样浏览着图层,喊出解剖结构的名称:小脑、海马区、岛状皮层、纹状体、胼胝体、脑室等等。此时一名年近 30 的医师在一张照片前停下了,用铅笔尖比划着大脑右侧边缘的一片区域说道:「这里有些不对劲,它的边界很模糊。」但在我眼里,由于像素不清晰,整张图片都是不协调并且模糊的,但他显然发现了不寻常的情况。
「模糊?」Lignelli-Dipple 刺探道:「你能描述得更详细一点吗?」
这名医师沉默着思索了一会,仿佛正在梳理脑海中的解剖结构,衡量着各种可能。之后他耸耸肩,说道:「它只是不一样。我也不清楚,它看起来很有趣罢了。」
Lignelli-Dipple 展示了第二次 CT 扫描(比第一次晚 20 小时),此时,被那名医师指出的区域已经肿胀到了葡萄的直径那般大小,而且颜色显得很暗。之后展出的一系列连续几天的扫描图片让他们明白了真相——出现了一块明显的楔形灰色区域。她到达急诊室不久,神经科医师便试图用溶栓药物疏通堵塞的动脉,但已经太晚了。初次扫描的几个小时后,她便失去意识,被送往重症监护室。两个月后,这名妇女仍住在楼上的病房里,但此时她的左半部分身体——从上臂到腿都已经瘫痪了。
我跟随 Lignelli-Dipple 去了她的办公室。我想了解关于学习的事情:医生是怎样学习诊断的?机器是否也能做到?
一
1997 年的秋天,我在波士顿开始了临床轮转(clinical rotations),也开启了自己的诊断生涯。为了做好准备,我读了一本医学教育的经典教科书,这本书将诊断行为明确分为四个阶段。第一,医生利用患者的病史以及身体检查,搜集有关病人的疾病或身体状况的事实;第二,整理这些信息并生成一份可能病因的综合列表;第三,通过提问和初步测试,进行「鉴别诊断」——即排除一种假设并加强另一种假设,同时给出权重来表现疾病的常见程度,以及患者的病史、风险与暴露情况(谚语有云,不要把简单的问题复杂化);于是列表的可能项就变少了;最后,部署确定的实验室检查、X 光或 CT 扫描以确认假设并确认诊断。数十年来,医学教课书都如实复制着这些步骤的变体,我们也从一代又一代医学院学生的身上看到了这幅图像:他们有条不紊、不辞辛劳地从症状找到病因。
但不久后我便得知,真正的诊断技术并不那么简单。我所在医学院的主任是一个优雅的新英格兰人,他总穿着抛光的便鞋,口音浓重,并以成为专家诊断医师而自豪。他会让病人表现出一种症状,比如咳嗽,然后再靠到椅子上,嘴里冒出一串形容词。他可能会说「微弱而刺耳」,或是「底部有嗡嗡声」,仿佛正在描述一瓶波尔多葡萄酒。而对我来说所有的咳嗽声听起来都一样,但是我会参与其中——「是的,刺耳」,就像酒会中紧张的南郭先生。
咳嗽分类学家会即刻缩小诊断的可能范围。他可能会说:「听起来像一种肺炎」,或是「充血性心力衰竭的湿疹」,接着他会询问一系列问题。病人最近体重是否有所增加?是否有石棉曝露的历史?他还会要求病人再次咳嗽,斜倚身子,用听诊器仔细听诊。他可能会根据结果得出另一系列的可能情况,就像突触的加强和削弱。而后就像路边魔术师的纵身一跃一般宣布他的诊断——「心力衰竭!」,并进行测试来证明它的正确性,而结果通常确实无误。
几年前,巴西的研究人员研究了放射科专家的大脑,来了解他们如何做到诊断。这些经验丰富的诊断医师是否对图像使用了心理「规则」?还是说他们使用了「模式识别或非分析推理」?
25 名放射科医生被要求评估肺部的 X 光,而核磁共振成像机可以跟踪他们的大脑活动(这个系列的递归很棒:若要诊断诊断,成像器就必须成像)。X 光在他们面前一闪而过。一些图片包含可能常见的单一病理损伤,可能是肺部的棕榈状阴影,或积聚在肺内衬层后面发暗且不透明的流体壁。嵌在第二组诊断图像中的是动物的线条图;而第三组则是字母表的字母轮廓。这三种图像会按照随机顺序向放射科医生展示,然后在核磁共振成像机追踪其大脑活动的同时,让他们尽快说出图像的名称。放射科医生平均需要 1.33 秒才能做出诊断。在这三种情况下,大脑亮起的区域相同:左耳附近的神经元宽三角洲以及颅骨后基上方的蛾形带。
研究人员总结道:「我们的研究结果支持这样的假设:当医生立即发现一种特征以及已知的病变时,这个过程与日常生活中命名事物的过程相似。」识别病变与命名动物的过程相似。当你认出犀牛时,你并不会考虑并消除替代的候选者。也不是在精神上将独角兽、犰狳和小象融合在一起。你会以一种模式认出犀牛的全部,而放射科医生也是如此。他们并没有沉思、回忆以及区分,他们看到的是一个普通对象。对我的主任来说,那些湿漉漉的声音也同样像熟悉的叮当声一般能够辨认出来。
二
1945 年,英国哲学家 Gilbert Ryle 举办了一场颇具影响力的讲座,主题关于两类知识。一个孩子知道一辆自行车有两个轮子,其轮胎充满了空气,并且可以通过骑脚踏板让它前进;Ryle 将这种事实、命题类的知识称为「知其然(knowing that)」。但学习骑自行车涉及到另一个学习领域:这个孩子会在摔倒、平衡两个轮子以及穿过坑洼的过程中学会骑自行车。Ryle 将这种隐性的、体验式的、基于技能的知识称为「知其所以然(knowing how)」。
这两种知识似乎是相互依赖的:你可以使用事实性知识来深化经验性知识,反之亦然。但是,Ryle 警告要抵制认为「知其然 (know that)」可以简化为「知其所以然(knowing how)」这种诱惑,因为一本规则手册无法教会孩子骑自行车。Ryle 认为,只有当我们知道如何运用规则时,规则才能真正发挥作用:「例如,对鸟类来说,只有通过生活才能掌握规则。」一天下午,我看着 7 岁的女儿骑自行车通过一个小丘。她第一次尝试时停在了斜坡最陡峭的部分,然后摔倒了。下一次我看到她屈身向前倾斜,最初角度很小,随后越来越明显;而当坡度减小时,她会向后增加重量。但是,我从未教过她骑自行车爬上那座小丘的规则。我想,当她的女儿学习骑自行车翻过这座小丘时,她也不会教她这些规则。我们会传授一些与宇宙有关的规则,但是会将剩下的留给大脑。
参加完 Lignelli-Dipple 与放射科学员的会议之后,我曾与通过 CT 扫描发现早期中风的年轻人 Steffen Haider 交流了一下。他是怎么发现病变的?是「知其然(know that)」还是「知其所以然(know how)」?他以习得规则作为谈话的开始。他知道中风往往发生在一面,组织会轻微「变灰」,且常常伴有略微肿胀,造成解剖边界丢失。他说:「大脑中有些地方的血液供应特别脆弱。」为了识别病变,他必须在大脑的一侧寻找没有出现在另一侧的迹象。
我提醒道,他忽视了图像中很多不对称的情况。这个 CT 扫描与大多数情况一样,在左侧存在其他灰色的波纹,但右侧却没有,它们可能是妇女中风前大脑中的异常运动或潜在变化。他是如何把重点缩小到这片区域的?他停了下来,头脑风暴却仍在继续。终于,他开口道:「我不知道,有一部分是潜意识的」。
Lignelli-Dipple 告诉我:「当你在学习中逐渐成长为放射学家时,这种情况就会出现,而问题在于机器能否以相同的方式『成长与学习』」。
三
2015 年 1 月,计算机科学家 Sebastian Thrun 开始痴迷于医学诊断的难题。这位在德国长大的科学家很瘦,剃着光头,周身充斥着漫画人物的气息;他看起来就像米歇尔·福柯(法国著名哲学家——译者注)和憨豆先生的奇异组合。Thrun 以前是斯坦福大学教授,领导者该校的人工智能实验室,后来离开创建 Google X,领导会自学的机器人和无人驾驶汽车的研发。但是,他发现自己对有着学习能力的医疗设备有了莫大的兴趣。49 岁时,他母亲因乳腺癌去世——正是他现在的年龄。Thrun 告诉我:「大多数癌症患者最初并没有症状,我母亲就没有,当她去看医生时,癌症已经转移了。我沉迷于找到一种能在癌症早期就将其侦测出来办法——那时,还能用手术刀将其切除。我也一直在想,机器学习算法能否有所帮助?」
早期在自动诊断方面的研究往往与教科书代表的显性知识(explicit knowledge)领域紧密相关。以心电图为例(心电图将心脏的电信号变化转变为纸张或屏幕上的线条),过去的二十年来,电脑解读的通常是这些系统的特征。执行这些工作的程序通常比较直接,特征波形与多种情况相关(如心房颤动或血管阻塞),以及识别这些特征波形并输入到应用中的规则。当机器识别到这些特征波形时,它会把这种心跳标记为「心房颤动(atrial fibrillation)」。
在早期胸部肿瘤 X 射线透视技术中也是这样,「计算机辅助诊断」已经屡见不鲜。图像识别软件会突出显示疑似病变的区域,而后放射科医师会复查结果。但这种识别软件通常也是使用基于规则的系统来识别可能病变的区域。这样的程序没有内置的自主学习机制,即一台已经检查过三千张 X 光图像的机器并不比仅检查过四张 X 光图像的机器更聪明。2007 年的研究对使用计算机辅助诊断设备前后胸部肿瘤 X 射线透视技术的准确性进行了比较,其中这些局限性变得异常明显。人们也许会预计在设备投入使用后,诊断的准确率会明显提高。但实际上设备产生的影响很复杂:在计算机辅助诊断组中,活体检查的准确率上升,但肿瘤学家最希望检测到的小型侵入性乳腺癌准确率却有所降低(甚至后续研究显示这种技术存在假正类(false positives)问题)。
Thrun 确信,他能通过从基于规则的算法转变为基于学习的算法来超越第一代诊断设备,从「知其然(know that)」变为「知其所以然(Know how)」来作出诊断。Thrun 使用的这类学习算法就涉及使用「神经网络」这种计算策略,因为该神经网络的灵感源于大脑运作的模型,所以其能完成这一学习过程。大脑中的神经突触通过反复激活而加强或减弱;这些数字系统旨在通过数学手段实现类似的目的,调整连接的「权重」来向预期输出靠拢。更强大系统会与神经元层级相似,每个系统会处理输入的数据并将结果发送到下一层。因此,出现了「深度学习」。
Thrun 将皮肤癌作为切入点,特别是角化细胞癌(美国最常见的一类癌症)和黑素瘤(最危险的皮肤癌)。能否训练机器通过扫描图片将皮肤癌与良性皮肤病(如痤疮、皮疹或痣)区分开呢?Thrun 推理道:「如果一名皮肤科医生做得到,那么机器应该也能够做到,并且可能会做得更好。」
一般而言,关于黑素瘤的皮肤病学教学会从基于规则的系统开始,就像医学生的学习一样,配有一套便捷的助记符:ABCD。黑色素瘤通常是不对称的(「A」——asymmetrical),其边缘(「B」——border)是不均匀的,而颜色(「C」——color)会变成斑块状且附有杂色,并且它们的直径(「D」——diameter)通常大于 6 毫米。但当 Thrun 在医学教科书和网络上查看黑素瘤标本时,却发现了不适用于这些规则的例外。
Thrun 仍然是斯坦福大学的兼职教授,找了两名学生 Andre Esteva 和 Brett Kuprel 帮助他进行研究工作。他们的首要任务是创建一个所谓的「教学集(teaching set)」:一个庞大的图像库,用来训练机器识别恶性肿瘤。Esteva 和 Kuprel 通过网络搜索发现了 18 个由皮肤病专家分类好了的皮肤损伤图像库。其中包含了近 13 万张有关痤疮、皮疹、虫咬、过敏反应和皮肤癌等疾病的图片,皮肤病专家将它们分为近 2000 种疾病。值得注意的是,有一个包含 2000 个病变的集合已经由病理学家切片检查过了,因而它们几乎是被确诊的了。
Esteva 和 Kuprel 开始训练他们的系统。他们没有制定规则;没有教它 ABCD 助记符。相反,他们是将图像和其确诊分类输入神经网络。我请 Thrun 描述这个神经网络的工作内容。
「想象用一个老式的程序去识别一只狗,」他说。「软件工程师会写出 1000 行 if-then-else 语句:如果它有耳朵,和一个鼻子,并有头发,且不是一只老鼠等等,这样循环往复完成识别任务。当然,这并不是一个孩子去学习识别狗的方式。起初,孩子会通过观察以及大人的告知来识别狗。她也许会犯错误,但能纠正自己。当她认为狼是狗时,大人们会告诉她狼属于一个完全不同的类别。于是她一点一点地改变了自己的认识:这是『狗』,那是『狼』。机器学习算法就像孩子一样,从一个已分类好的标注训练集抽取信息。如这是一只狗,那不是一只狗。然后,它从一组一组的训练集中提取出特征。接着,通过对成百上千张已分类图像进行自我测试,机器学习系统像孩子一样开始创建属于自己的方式来识别狗。」它就是知道如何去做(know how)。
2015 年 6 月,Thrun 的团队开始测试通过给机器一个「验证集(validation set)」的方式来了解它从图像主集合中学到了什么:一些经皮肤病专家诊断(虽然不一定是通过活检)的 14,000 张图像。该系统是否能够准确地将图像分为 3 个诊断类别——良性病变、恶性病变和非癌生长?这个系统的正确率为 70%。(该算法的实际输出不是「yes」或「no」,而是某个给定病变属于类别的概率。)两位得到委员会认证的皮肤病学家也在一旁做了测试,不过他们做得更糟:其正确率为 66%。
接着,Thrun、Esteva 和 Kuprel 又将研究扩展到了 25 位皮肤病学家,而这一次他们使用了一个黄金标准——约 2000 张经由活组织检测证实的图像「测试集(test set)」。在几乎每一个测试中,该机器都比这些专家更加敏感:它不太可能错过一个(恶性)黑素瘤。它也比专家们更为明确:它不太可能将一个肿瘤错称为(恶性)黑素瘤。「在每一次测试中,该网络都要优于皮肤病学家,」该小组在《自然》杂志所发表的一份报告中总结到。
「还有一个有关网络的更深刻的东西没有在该论文中得到充分强调,」Thrun 告诉我。在研究的第一版本中,他和团队开始使用的是一个完全的朴素(na?ve)神经网络。但是他们发现,如果是从一个已被训练成识别一些不相关特征(比如狗和猫)的神经网络入手,它会学得更快更好。也许我们的大脑功能也是这样。高中课程中那些令人头脑麻木的练习——因式分解、共轭动词、背元素周期表——可能会得到相反的结果:令人头脑敏锐。
在教机器时,他们团队必须得小心地处理这些图像。Thrun 希望人们有一天只需提交其令人担忧的病变手机照片就可以得到诊断,这意味着该系统必须适用于多种角度和照明条件。但是,他回忆道,「在某些图片中,(恶性)黑素瘤已经被黄圆盘标志标记过了。我们必须把它们裁剪出来——否则,我们可能就是在教计算机将黄圆盘标志作为癌症标志给挑选出来。」
这是一个古老的难题:一个世纪前,德国民众被 Clever Hans 迷住了,据说这匹马可以进行加减运算,并能够通过敲击蹄子来将答案传递出来。事实证明,Clever Hans 实际上是在感受驯马者的态度举止。当马蹄敲击数接近正确答案时,驯马者的表情和姿势就会变得放松。动物的神经网络没有学过算术,却学会了检测人类肢体语言的变化。「这就是神经网络离奇的地方,」Thrun 说。「你不知道它们在使用什么信息。它们就像黑箱,其内部运作是神秘的。」
「黑箱」问题是深度学习所特有的。该系统不受大量而明确的医学知识和一系列诊断规则的引导;通过进行大量的内部调整——类似于加强和减弱大脑中的突触连接——它已经能够有效地教自己去区别痣与黑色素瘤。它究竟是如何将某一病变确定为黑色素瘤的呢?我们无法知道,它也无法告诉我们。所有允许网络去学习的内部调整和处理都发生在我们的审查能力之外。就像我们自己的大脑一样。当你骑自行车慢慢转弯时,你会向相反的方向倾斜。我的女儿知道自己是这样做的,但这并不是她自己的选择。该黑色素瘤机器必须从图像中提取某些特征;如果它不能告诉我们所选的是哪一个特征,这会有什么影响吗?这就像是微笑着的知识之神。遇到这样一台机器,你可以窥见动物感知人类心灵的可能方式:无所不知但却难以理解。
Thrun 轻快地设想了这样一个世界——我们时刻处于诊断的监控之中。我们的手机将分析如何把语音模式转化为老年痴呆症的诊断。一个方向盘会通过你小幅度的踌躇和震颤来检测出早期的帕金森氏症。当你在洗澡时,一个浴缸将通过无害的超声波或磁共振来执行顺序扫描,以确定卵巢中是否出现了新的需要调查的紊乱。大数据将会观看、记录和评估你:我们将从一个攫取的算法中穿梭到下一个。进入 Thrun 的这个浴缸和方向盘的世界就是进入了一个诊断镜大厅,每面镜子都敦促着更多的测试。
很难不被这种愿景所诱惑。一个每天都在做图像对照、不断以细节————甚至可能是细胞——颗粒的方式对我们进行扫描的医疗监狱,可能会使我们在癌症的最早期诊断出它吗?它能提供癌症检测方面的什么突破吗?这听起来令人印象深刻,但其中有一个陷阱:许多癌症都注定是因人而异的。我们是和它们一起死去,而不是因它们死去。如果这样一个身临其境的诊断引擎将导致数以百万计的不必要的活检呢?在医学上,早期诊断可以挽救或延长生命。但也有一些情况是,你会担心更长的时间,但不会活得更久。很难知道你想知道多少。
「我对于增强人类能力方面很感兴趣,」当我问他这种系统对人体诊断的影响时,Thrun 这样说到。「看,工业耕作消除了某种形式的耕作吗?当然,不过它也扩大了我们生产农产品的能力。并非所有这些都是好的,但它使我们能够养活更多的人。工业革命增强了人类肌肉的力量。当你使用电话时,你增强了人类语言的力量。在纽约的你无法令加利福尼亚的人听到你的喊叫」——的确,当时 Thrun 和我的通话距离就是这么长——「但你手上的这个矩形设备可以让人声传递到 3000 英里之外。电话取代了人声吗?没有,电话是增强设备。认知革命将允许计算机以同样的方式增强人类的思维能力。就像机器使人类肌肉增强了 1000 倍一样,机器也将令人类的大脑性能增强 1000 倍。」Thrun 坚持认为,这些深度学习设备不会取代皮肤病医生和放射科医生。它们将加强专业人士的能力,为他们提供专业知识和援助。
四
Geoffrey Hinton 是多伦多大学的计算机科学家,他认为学习机器将在临床医学中发挥出更大的作用。Hinton——乔治·布尔的玄孙,其布尔代数是数字计算的一个基本原理——有时被称为深度学习之父;这是他从 19 世纪 70 年代中期以来就开始研究的一个主题,他的许多学生如今已成为该领域的主要设计者。
「我认为,如果你是一名放射科医生,那么你就像是漫画中的 Wile E.Coyote(译注:先拼命地往悬崖外跑,离了很远之后才发现自己已经踏空。),」Hinton 告诉我。「你已经越过了悬崖的边缘,但是还没有朝悬崖下看去。下面并没有地面。」用于乳房和心脏成像的深度学习系统已被商业化开发出来了。「这完全是显而易见的,深度学习将在 5 年内胜过放射科医师,」他继续说道。「可能是 10 年。我在一个医院里说过这个。但是这一点并没有获得广泛的接受。」
Hinton 那次在医院的原话很直率:「他们现在应该停止训练放射科医生了。」当我向 Angela Lignelli Dipple 提出这个挑战时她指出,诊断医师并非仅仅是在做 yes-no 式的分类工作。他们不仅仅是在定位导致中风的栓塞。他们是在关注其它地方的小出血,这些小出血可能会令溶栓药物的使用造成灾难性的后果,他们是在寻找一种意料之外的、或许依然处于无症状状态的肿瘤。
「很好。结果稍微是可预测的」
Hinton 现在有资格发起挑衅。他告诉我:「放射科医生的角色将从做一些感知任务——受过高度训练的鸽子也可能能完成的这种任务——演变为做更多的认知工作」。他对于自动化医学未来结局的预测是基于一个简单的原则:「如果你拥有关于某旧式分类问题的大量数据,那么就考虑去解决这个问题吧,深度学习将会做到这一点。那时会有数以千计的深度学习应用程序出现。」他想利用学习算法来读取各种各样的 X 射线、CT 扫描和核磁共振——而这只是他所认为的近期前景。在未来,他说,「学习算法将会从事病理诊断」,它们可能会阅读 Pap 涂片、听心脏的声音或是预测精神病患者复发的可能性。
我们讨论了黑箱问题。虽然计算机科学家们正在研究它,但是 Hinton 承认,这些挑战——打开黑箱和试图找出到底这些强大的学习系统知道些什么以及它们是如何知道的——是「微不足道的——不要相信任何人的话。「不过,这是一个他认为我们可以学会去适应的问题。他说:「想象在某场比赛中,一名棒球运动员与一名物理学家对抗以确定球可能在哪着陆,」他说。「棒球运动员一次又一次地抛了一百万次球,他可能不了解任何方程式,但是他知道球到底会有多高、能达到多大的速度以及它会降落到地面的位置。物理学家可以写方程式来判断同一件事物。但是二者终将殊途同归。」
我回顾了计算机前辈在钼靶检查中使用计算机辅助检测和诊断的令人失望的结果。Hinton 承认,任何新系统都需要通过严格的临床试验进行评估。然而,他强调,新的智能系统是为了从其错误中吸取教训——从而可以随着时间的推移而改进。「我们可以在一个会关注每个错过的诊断——最终患肺癌的病人——并将其反馈到机器系统中来建立检测与诊断机制。我们可以问,你错过了什么?你能细化诊断吗?没有针对人类放射科医生的这种系统。如果你遗漏了某件事,然后 5 年后你的一个病人患上了癌症,那么这就没有系统的例行程序来告诉你如何纠正自己。但是你可以在一个系统中建立这种机制来教计算机实现这一目标。」
一些最雄心勃勃的诊断机器学习算法版本寻求将自然语言处理(让算法可以查看病人的医疗记录)与从教科书、期刊和医学数据库获得的医疗方面的百科知识整合起来。总部设立于马萨诸塞州剑桥市的 IBM Watson Health 和总部设在伦敦的 DeepMind 都希望建立这样的综合系统。我看到一些这样的系统正处于试点示范运行中,但它们的许多功能——特别是深度学习组件仍在发展中。
Hinton 对于深度学习诊断的未来充满激情,这部分是由于他自己的经验。当他正在开发这种算法时,他的妻子被发现患有晚期胰腺癌。他的儿子被诊断出患有恶性黑色素瘤,但随后活检显示该病变是一个基底细胞癌,是一种不太严重的癌症。「这里还有很多东西需要学习,」Hinton 说,轻轻地叹了一口气。「准确的早期诊断并不是一个简单的问题。我们可以做得更好。为什么不让机器帮助我们呢?」
五
在一个冰冷的三月的清晨,在我与 Thrun 和 Hinton 谈话的几天之后,我去了位于曼哈顿第一大街 50 号的哥伦比亚大学的皮肤诊所。主治医师 Lindsey Bordone 那一天原定要看 49 个病人。然而到了十点钟,候诊室却里挤满了人。一个 60 岁左右留着胡子的男人坐在角落里,用一条羊毛围巾把脖子上的皮疹掩盖起来。一对焦虑的夫妇蜷缩着在看《时代》杂志。
Bordone 看着病人接二连三地赶来。在一个由荧光灯照明的里屋内,一个护士坐在一台计算机前说了一句话总结到:「50 岁,先前没有诊断史,皮肤上有新的可疑点」——然后 Bordone 冲进诊疗室,她金色的头发在风中飞扬着。
一个 30 多岁的年轻人脸上有鳞屑红疹子。Bordone 打量着这个年轻人,他的皮肤剥落了并从鼻子上掉下来。Bordone 把他拉入灯光下仔细检查了他的皮肤,然后用手持皮肤镜对其进行观察。
「你的头发里有头皮屑吗?」她问。
这个男人看起来很困惑。「当然,」他说。
「嗯,这是面部皮屑,」Bordone 告诉他。「这是一个特别糟糕的情况。但问题是它现在为什么会出现并且情况变得越来越糟了。你在头发上使用过什么新产品吗?你有一些异常的家庭压力吗?「
「压力肯定是有一些的,」他说。他最近失业了,正在处理随之而来的财务问题。
「记日记,」她建议到。「我们可以凭此确定二者之间是否有关联,」她开了一个类固醇霜的处方,并让他一个月后再来。
在隔壁房间的是一个年轻的律师助理,他的头皮上起了一片发痒的疙瘩。Bordone 摸他的疙瘩时他赶紧避开了。「脂溢性皮炎,」她说到,结束了这个检查。
另一个房间的女人脱了衣服并穿上医院的病号服。她过去被诊断出患有黑色素瘤,而她做预防措施却很勤奋。Bordone 一个斑点接着一个斑点地检查了这个女人的皮肤。这花了她 20 分钟的时间,但这种检查彻底且全面,她用手指在一片痣与皮赘组成的景观中划过,同时说出诊断结果。有一些痣和角化病,但并没有黑色素瘤或者癌。「看起来一切都很好,」她兴高采烈地说。女人宽慰地叹了口气。
于是乎就是:Bordone 来;她见;她确诊(译注:恺撒大帝描述其胜利时说,「我来;我见;我征服。」)。她不像 Hinton 是只草原狼,而似乎像是一架有些疯狂的越野车,试图用接二连三赶来的病例来跟上时代的步伐。她在里屋中写笔记时,我问她关于 Thrun 对诊断的愿景:一张 iPhone 照片被电邮给一个强大的异地网络,召集了一群无可置疑但不可理解的专家评价。一位全职的皮肤科医生,比如 Bordone,会在她的一生中看到约 20 万个病例。斯坦福的机器算法在大约 3 个月内获取了近 13 万的病例。然而每位新晋的皮肤科医师都需要从零开始,但是 Thrun 的算法却一直都处于获取病例、成长和学习的过程中。
Bordone 耸了耸肩。「如果它能帮助我作出更准确的决定,我会欢迎它,」她说。「我的一些病人在来找我之前会拍下他们的皮肤问题照片,这会增加我的诊所的诊断范围。」
这听起来像是一个合理的回复,而我还记得 Thrun 有关技术增强人类能力的安抚性言论。但是,随着机器学习得越来越多,人类会学习得越来越少吗?这是一些父母所长期焦虑的问题,他们的孩子可以使用手机中的拼写检查功能:如果孩子停止学习如何去拼写怎么办?这种现象被称为「自动化偏见(automation bias)」。当汽车获得自动驾驶辅助时,司机可能变得不那么警觉了,而类似的事情也可能发生在医学领域。或许 Bordone 是一个孤独的 John Henry(译注:他为了保住自己和黑人兄弟们的饭碗而站出来向机器挑战,宁死不向机器屈服。),而现实中的蒸汽钻即将上线。但有一点是无法忽视的,即她自己的关注从未动摇过、她对待手指划过的每一个皮赘和痣时是多么地认真。如果她与一台机器合作,那么她还会这样继续下去吗?
我注意到了 Bordone 与其病人之间的其它互动模式。一方面,他们最后几乎总是会感觉更好。他们被触摸并被仔细地检查;一个谈话就这样发生了。即使是对病变的命名——「痣」、「角化病」——也是一剂心灵润滑剂:心底里有一些对疾病诊断过程的欣慰。那个皮肤重现光泽和弹性的女人,她的焦虑也随之脱落。
还有很多。正如巴西研究员可能已经猜到的,Bordone 会在一瞬间识别出诊断结果。她口中的「皮炎」或「湿疹」,就好像是在识别一只犀牛:当她识别出某一模式时,你几乎可以看到她大脑后下方的神经元角锥状物所迸发出的火花。但诊断还没有结束。Bordone 几乎在每个案例中都会花大量的时间调查病变原因。为什么会出现这些症状?是压力吗?一种新的洗发水?有人改变了游泳池里的氯吗?为什么是现在?
我认识到,在这些临床实践中的最有力的因素,不是了解它或是知道如何去掌握案例的事实情况,或识别出医生们所构建的模式。而是存在于知识的第三个领域中:了解原因。
六
因为解释可浅可深。如你的手指上有一个红色的水泡,因为你碰到了一块热铁;你的手指上有一个红色的水泡,因为烧伤激发了前列腺素和细胞因子的一个炎症级联反应,而其中的调控过程仍然不能被我们完美地解读出来。了解原因、提问为什么,是我们通向各种解释的桥梁,而解释正越来越多地成为掌控医学进步的东西。当 Hinton 谈到棒球运动员和物理学家时,人工或真实人类的诊断医师,将会成为棒球运动员,他们熟练但黑箱。医学研究者将成为医学领域的物理学家,正如来自棒球领域的理论学家一样,但他们有知道「为什么」的渴望。这是一个方便的职责分工,但这是否或许也意味着损失?
「深度学习系统没有任何解释能力,」Hinton 直截了当地说到。黑箱不能调查原因。事实上,他说:「深度学习系统变得越强大,它就越含糊。由于更多的特征被提取了出来,诊断本身变得越来越准确。然而为什么这些特征会从数以百万计的其它特征中被提取出来,这仍然是一个无法回答的问题。」算法可以解决一个案例,但它不能创建一个案例。
然而我在自己的领域(肿瘤学)中不禁注意到,往往是那些熟练的从业者,他们通常也是喜爱钻研的研究人员在取得研究进展。事实上在过去的几十年里,有抱负的医生曾经努力想成为棒球运动员和物理学家:他们试图用诊断的灵敏度来了解疾病的病理生理学。
为什么一个皮肤病变的不对称边缘会预测出黑色素瘤?为什么有些黑色素瘤会自然消退,以及为什么在其中的一些病例中会出现白色斑块?巧合的是,诊断专家在临床中所观察到的这些现象,最终与如今临床上所使用的一些最有效的免疫药物的发明联系在一起。(皮肤美白原来是免疫反应的结果,该反应同时也会对抗黑色素瘤)该发现链可以始于临床。如果越来越多的临床实践被黑箱的学习机所取代,如果知识的内隐和显性形式之间日常和自发的亲密关系(即知道是什么、为什么、怎么样)开始褪色,那么我们是否会变成这样一种情况:把能做的做得更好,但对于重新审视我们所应该做的事情、去跳出黑箱进行思考却表现得越来越无能?
我与哥伦比亚大学皮肤病学科的一把手 David Bickers 交流过我们的自动化未来。「相信我,我已经试着去理解 Thrun 论文的所有分支知识,」他说。「我不明白这些算法背后的数学原理,但我确实知道这样的算法可能会改变皮肤科领域的发展实践。皮肤科医生会失业吗?我不这么认为,但我认为我们必须认真考虑如何把这些技术融入我们的实践中。我们使用机器的代价是什么?如果机器做出了错误的预测,那么其法律责任是什么?如果依靠这样的算法,那么,这是否会削弱我们的实践,或者作为诊断专家的自身形象?最终,是否会训练一批技术人员而不再是医生?「
他看了下时间。一个病人正等着见他,他要离开了。「我这辈子都是以诊断学家和科学家为业,」他说。我知道病人多么依赖我的分辨恶性病变和良性病变的专业。我也知道医学知识来自于诊断。」
他提醒我,「诊断」这个词来源于希腊语「理解知道差异(knowing apart.)。」机器学习算法只会更加擅于知道这类差异:比如,分隔(partitioning)、辨别痣和黑色素瘤。但是无论从哪个角度说,就知道(knowing)来说,都会超越那些专注于解决具体任务的算法。在医学领域,也许最终的回报来自于理解整体(knowing together)。
原文链接:http://www.newyorker.com/magazine/2017/04/03/ai-versus-md?mbid=social_twitter
授权文章,转载请联系原出处
来源:机器之心(微信号:almosthuman2014) 作者:编译:侯韵楚、Rick R、微胖、吴攀、蒋思源