韩国科研团队:超90%的医学影像AI论文未在临床环境进行严格验证

医疗器械 来源:雷锋网 作者:李雨晨
2019
03/18
10:03
雷锋网
作者:李雨晨
医疗器械

近年来,人工智能在医学中的应用令人兴奋,但当前的一个问题是人工智能算法缺乏适当的临床验证。近日,韩国泰安郡卫生中心的Dong Wook Kim和蔚山大学医学院放射学研究中心的Hye Young Jang、Kyung Won Kim、Youngbin Shin以及Seong Ho Park(通讯作者)等几位医学博士发表了一篇论文,来评估AI算法性能研究实验的设计特征,这些AI算法基于医学影像来提供诊断决策。

研究团队通过检索PubMed MEDLINE和Embase数据库,以确定2018年1月1日至2018年8月17日期间发表的原始研究论文, 评估所选择的文章有以下几个条件:

1、该研究是否使用外部验证而不是内部验证,并且在外部验证的情况下,是否收集验证数据

2、是否使用诊断队列设计而不是诊断病例对照设计

3、是否来自多个机构

4、是否以前瞻性的方式

这些是在现实世界中用于临床验证AI性能的基本方法学特征。

确定了符合上述标准的研究后,研究团队将出版期刊分为医学期刊和非医学期刊。 然后,比较医学和非医学期刊之间的结果。在516项符合条件的已发表研究中,只有6%(31项研究)进行了外部验证。31项研究均未采用所有三种实验设计条件:诊断队列设计,包含多个机构,以及用于外部验证的前瞻性数据收集。医学和非医学期刊之间没有显着差异。

研究团队得出的结论是:几乎所有在研究期间发表的医学影像AI算法性能的评估实验,都是为验证技术概念的可行性而设计,没有对AI算法在实际临床环境下的性能进行严格验证。

引言

由于深度学习技术的进步,人工智能(AI)在医学中的应用引起了很多关注。值得注意的是,人们对使用AI进行各种医学影像的诊断分析非常感兴趣,主要是通过卷积神经网络,一种被称为“计算机视觉”的深度学习技术。与任何其他医疗设备或技术一样,通过充分设计的研究确保患者的利益和安全,同时避免任何无意的危害,在临床实践中采用AI算法进行全面临床验证的重要性不容小觑。

值得注意的是,在本研究中使用术语“验证”来表示确认,就像在医学领域中使用的那样,而不是在机器学习领域中用作技术术语“算法调整”的意思。

AI技术的临床验证可以在不同的水平上进行:诊断性能,对患者结果的影响以及考虑 cost-benefit 和 cost-effectiveness 的社会效能(societal efficacy)。正确评估使用深度学习分析医学图像的高维AI算法的真实临床性能需要适当设计的外部验证。建议外部验证使用重新招募的患者或提供训练数据的机构以外的其他机构收集的足够大小的数据集,以充分代表AI所应用的现实临床环境中的目标患者表现谱(即患者人口统计学和疾病状态的所有相关变化)。

此外,使用来自多个外部机构的数据对验证非常重要,以验证算法的泛化能力,应对各种医院系统的预期变异性。复杂的数学/统计AI模型,例如分析医学影像的深度学习算法,需要大量的数据用于算法训练;制作和注释这种量纲的医学影像数据资源尤其紧张和困难。因此,开发此类AI算法的个体可能依赖于任何可用的数据(方法上称为便利病例 - 对照数据 convenience case-control data),尽管这些可能易于发生选择偏倚和人为疾病流行(artificial disease prevalence),并且可能不能很好地代表实际临床设置。由于AI算法的性能很大程度上取决于其训练数据,因此存在真正的风险,即AI算法在实际操作中可能表现不佳,并且在一个机构训练的算法在应用于另一个机构的数据时提供不准确的结论。

尽管人工智能在医学中的应用令人兴奋,但人工智能算法缺乏适当的临床验证似乎是当前的一个问题,这种现象被称为“数字例外论”(digital exceptionalism)。例如,计算机科学家通常会在“测试”数据集上评估AI算法的性能;然而,这些通常是原始数据集的随机子样本,因此,不可能对临床表现进行充分的外部验证。据我们所知,显示这一显著问题确切程度的具体数据很少。

本研究旨在评估最近发表的研究的实验设计,这些研究报告了分析医学影像的AI算法的性能,并确定研究设计是否适合于验证AI算法在实际临床中的表现。本研究中提到的研究实验设计对于验证AI的真实临床表现至关重要,但对于验证概念技术可行性研究而言则过多。由于并非每项关于使用AI进行医学诊断的研究都是为了验证实际的临床表现,本研究的目的并不是直截了当地判断已发表研究的方法学适用性。

材料和方法

文献检索与筛选

我们对PubMed MEDLINE和Embase数据库进行了全面搜索,以确定调查AI算法性能的原始研究文章,该算法通过分析医学影像来提供诊断决策(例如诊断或发现特定疾病,又或者是提供信息以根据特定疾病将患者分类为亚组疾病状态、亚型、严重程度、阶段、治疗反应、预后和风险)。我们使用以下搜索查询: (“artificial intelligence” OR “machine learning” OR “deep learning” OR “convolutional neural network”) 和 (diagnosis OR diagnostic OR diagnosing) 和 (accuracy OR performance OR “receiver operating” OR ROC OR AUC)。我们将检索时间限制为2018年,以获得及时的结果(文献检索更新至2018年8月17日)。印刷出版物和电子出版物都包括在内。

在删除两个数据库之间的重叠之后,由两名独立评审员筛选文章的资格。在一次会议上重新评估了任何程度模糊或在两位审稿人之间产生意见分歧的文章,并邀请了第三位审稿人来达成一致。案例报告、评论文章、社论、信件、评论和会议摘要/程序被排除在外。我们的检索仅限于人类类别和英语语言的研究。

我们将医学图像定义为放射图像和其他医学图像(例如,内窥镜图像,病理图像和皮肤图像),并且没有考虑任何在时间上绘制一维数据的线条图,例如,心电图和A超。研究调查了结合医学图像和其他类型临床数据的AI算法。没有考虑除直接诊断决策之外的图像相关任务的AI算法,例如图像分割,定量测量和图像采集/重建的增强。

数据提取

两位评审员通过以下标准评估了符合条件的文章的全文:

1、该研究是否使用外部验证而不是内部验证,并且在外部验证的情况下,是否收集验证数据

2、是否使用诊断队列设计而不是诊断病例对照设计

3、是否来自多个机构

4、是否以前瞻性的方式

这些是在实际操作中推荐用于AI性能临床验证的基本方法学特征。这些问题中得到更多“是”的答案,则算法性能的实际应用越普遍。如果一项研究以多种方式验证其AI性能,那么如果至少有一项分析使用了这些设计条件,则该研究对上述每个问题都会为“是”。我们宽泛地定义了“外部”,包括训练数据和验证数据来自不同机构,以及从同一机构但在不同时间收集训练和验证数据的情况,即使后者在严格意义上不被视为外部验证。

对于在同一机构收集训练和验证数据集的研究,如果验证数据集的临床设置和患者资格标准与训练数据集分开指定,则验证数据仅被视为外部数据。这是为了确保验证数据不仅仅是原始大数据集的分割子样本,因为这会产生一种内部验证。诊断性队列设计指该研究首先定义临床环境和患者资格标准,然后连续或随机招募患者以进行特定诊断程序,例如AI算法应用。相反,诊断病例对照设计将分别收集疾病阳性和疾病阴性受试者。诊断病例对照设计容易出现疾病谱偏倚,这可能导致对诊断性能的夸大估计和非自然流行,从而产生诊断性能的不确定性。

另外,我们注意到每篇文章的主题领域(例如,放射学,病理学和眼科学)并将出版期刊分类为医学或非医学期刊组。这些期刊主要根据期刊引用报告(JCR)2017版本类别进行分类。对于未包括在JCR数据库中的期刊,如果期刊的范围/目标包括任何医学领域或主编是医生,我们会提及期刊网站并将其归类为医学。对于任何程度模糊或在两位独立评审员之间产生意见分歧的文章都在包括第三位评审员在内的共识会议上重新评估。

结果测量和统计分析

我们计算了进行外部验证的研究百分比。对于报告外部验证结果的研究,确定了涉及诊断队列的实验设计,包含多个机构以及外部验证的前瞻性数据收集的研究比例。使用Fisher精确检验对医学和非医学期刊的结果进行了比较。 p <0.05被认为是显着的。

结果

在去除PubMed MEDLINE和Embase之间的重叠后最初收集的2748篇文章中,最终有516篇文章符合条件(图1,表1)。


表2列出了具有每种实验设计的文章的比例,包括医学和非医学期刊的分类。 只有6%(516个中的31个)进行了外部验证。 所有外部验证研究均未采用所有三种实验设计,即诊断队列设计,包含多个机构和前瞻性数据收集。 医学和非医学期刊之间没有显着差异(表2)。


讨论

我们的研究结果显示,最近发表的研究报告了用于医学影像诊断分析的AI算法的性能,但没有严格验证AI算法临床性能的设计特征,这证实了主要期刊最近提出的担忧。我们的研究没有考虑人工智能研究的各种详细的方法学质量测量,而只是评估了主要的宏观研究。因此,AI算法临床验证的不足程度可能更为显著。

然而,应该指出的是,这些结果并不一定意味着已发表的研究各种方法设计不充分。本研究中使用的四个标准是旨在评估AI算法在实际临床表现的基本要求。对于仅仅研究技术可行性的研究来说,这些要求将是过度的。读者和研究者都应该区分概念验证技术可行性研究和验证AI临床表现的研究,并且应该避免错误地考虑不符合上述标准的研究结果作为临床验证的合理证据。

最近发表了一些相关的方法指南。我们怀疑在本研究中分析的大多数研究可能是在这些方法指南可用之前构思或执行的。因此,旨在评估医学AI算法的临床性能研究的实验设计可能在未来得到改善。

在我们的研究中没有直接解决但值得一提的另一个问题是:关于先验分析计划的透明度以及在验证AI算法的临床性能的研究中的所有结果的完整公布。

由于人工智能算法的表现可能因机构不同而有差别,一些研究人员或赞助商可能会倾向于选择性地报告有利的结果,这会导致漏报不利的结果。前瞻性登记研究包括先验分析计划,类似于干预临床试验的登记(例如,在https://clinicaltrials.gov),将有助于提高这些研究的透明度。已经提出了诊断测试准确性研究的前瞻性登记,其中包括用于验证AI性能的研究。学术期刊采用这一政策有助于提高验证AI算法临床表现的研究报告的透明度。

我们目前的研究有一些局限性。

首先,研究数据的时效性很重要,因为人工智能是一个快速发展的领域,许多新研究正在发表,我们研究结果的有效期可能很短。但是我们希望很快医学AI临床表现的研究设计取得实质性进展。尽管如此迅速的变化,我们的研究仍然是有意义的基线,可以进行比较以确定未来是否有任何改进,因为这里分析的大多数已发表的研究可能早于最近发布的相关方法指南。

其次,虽然本研究仅评估了AI诊断性能的研究报告,但AI的临床验证延伸到评估AI对患者预后的影响。然而,据我们所知,关于AI应用如何影响患者预后的研究很少,并且系统地审查已发表的研究是不可行的。

来源:雷锋网   作者:李雨晨

为你推荐

BMS 2.86亿美元收购了一家CAR-T疗法公司资讯

BMS 2.86亿美元收购了一家CAR-T疗法公司

近日,百时美施贵宝(BMS)宣布将以每股5 00美元的全现金交易方式收购2seventy bio(TSVT US),总股本价值约为2 86亿美元,交易预计将在2025年第二季度完成。

2025-03-13 16:28

启明医疗正式复牌:以长期主义开启高质量发展新阶段资讯

启明医疗正式复牌:以长期主义开启高质量发展新阶段

此次复牌标志着启明医疗彻底解决了公司治理问题,并重新建立了内部控制体系,是公司回应市场关切、重塑行业信心的关键一步。

2025-03-13 09:13

江苏公示136款药品挂网价资讯

江苏公示136款药品挂网价

近日,江苏省公共资源交易中心发布《关于公示药品阳光采购拟挂网产品的通知》,共涉及136款药品。

2025-03-12 17:37

原生多模态+千亿级数据训练,蚂蚁医疗大模型拿下MedBench测评“双料”冠军资讯

原生多模态+千亿级数据训练,蚂蚁医疗大模型拿下MedBench测评“双料”冠军

近日,记者发现,国内权威医疗大模型评测平台MedBench在官网更新了榜单。多个医疗AI产品及研究团队入榜,其中蚂蚁AI健康管家团队研发的蚂蚁医疗大模型以评测榜单97 5、自测榜单...

2025-03-12 15:47

皮肤医学赋能功效护肤,薇诺娜修白瓶打造“健康白”行业标杆资讯

皮肤医学赋能功效护肤,薇诺娜修白瓶打造“健康白”行业标杆

2025年,国内美白市场竞争进入白热化阶段。

2025-03-12 12:15

业绩增速持续承压,爱美客超13亿元收购了一家韩国医美公司资讯

业绩增速持续承压,爱美客超13亿元收购了一家韩国医美公司

​近日,爱美客发布公告称,基于公司战略规划和经营发展需要,其全资子公司 Imeik(HK)Limited(简称“爱美客香港”)与 Aisheng Shourui (HK) Limited(简称“首瑞香港”...

2025-03-12 10:47

中国首款经导管三尖瓣器械K-Clip获批上市资讯

中国首款经导管三尖瓣器械K-Clip获批上市

这是国内首款获批上市的三尖瓣器械产品,填补了国内介入三尖瓣领域的空白。

2025-03-12 09:50

重见光明,聂爷爷的笑容回来了——重庆爱尔助孤寡白内障患者重燃生活希望资讯

重见光明,聂爷爷的笑容回来了——重庆爱尔助孤寡白内障患者重燃生活希望

对于陈茂盛院长和重庆爱尔眼科医院(总院)的医护人员来说,聂爷爷的重见光明正是他们不断追求的动力。

2025-03-12 09:41

无双医疗完成C轮近1.5亿元融资,加速心脏节律管理创新产品研发和商业化资讯

无双医疗完成C轮近1.5亿元融资,加速心脏节律管理创新产品研发和商业化

本轮融资由天士力资本领投,现有股东启明创投、苏高新金控、康裕资本继续加持,为无双医疗在心脏节律管理(CRM)领域的创新产品研发和商业化进程注入了强劲动力。

2025-03-12 09:38

卫美健康完成A轮亿级融资,加速县域基层医疗大模型应用落地资讯

卫美健康完成A轮亿级融资,加速县域基层医疗大模型应用落地

本轮融资资金将主要用于卫美健康“奇点医问”医疗大模型的研发投入与迭代进化,加强医疗细分领域的算法研究,构建升级全国服务网络体系,进一步扩大卫美健康在县域以及基层AI医...

2025-03-12 09:19

突发,上市公司双成药业宣布终止跨界重组资讯

突发,上市公司双成药业宣布终止跨界重组

昨日晚间(3月10日),双成药业发布公告称,公司原拟以发行股份及支付现金的方式向奥拉投资、Win Aiming等25名交易对方购买其持有的宁波奥拉半导体股份有限公司100%股份,并拟...

2025-03-11 13:44

百时美施贵宝公布颂狄多®(氘可来昔替尼)POETYK PsA-2 III期试验最新数据 证实其在治疗成人银屑病关节炎中优于安慰剂资讯

百时美施贵宝公布颂狄多®(氘可来昔替尼)POETYK PsA-2 III期试验最新数据 证实其在治疗成人银屑病关节炎中优于安慰剂

治疗第 16 周时,颂狄多治疗组患者的 ACR和 PASI应答率显著高于安慰剂组,且患者报告生活质量有更明显改善。与安慰剂和阿普米司特相比,颂狄多耐受性良好,安全性特征与既往...

2025-03-11 09:38

华东医药全球首个卵巢癌ADC爱拉赫®补充申请获受理资讯

华东医药全球首个卵巢癌ADC爱拉赫®补充申请获受理

申报适应症为用于既往接受过1-3线系统性治疗的叶酸受体α(FRα)阳性的铂类耐药的上皮性卵巢癌、输卵管癌或原发性腹膜癌成年患者。

2025-03-10 19:36

宜明昂科、康宁杰瑞、科济药业等8家药企被调出港股通,5家新调入资讯

宜明昂科、康宁杰瑞、科济药业等8家药企被调出港股通,5家新调入

3月7日,上交所发布最新港股通调整名单,共涉及13只医药类股票,其中调入5只,调出8只。

2025-03-10 16:37

用于治疗复发或难治性多发性骨髓瘤,辉瑞靶向免疫疗法易瑞欧(埃纳妥单抗)在华获批资讯

用于治疗复发或难治性多发性骨髓瘤,辉瑞靶向免疫疗法易瑞欧(埃纳妥单抗)在华获批

今日(3月10日),辉瑞公司宣布,靶向免疫疗法易瑞欧®(埃纳妥单抗)获国家药品监督管理局附条件批准,适用于既往接受过至少三线治疗(包括一种蛋白酶体抑制剂、一种免疫调节剂...

2025-03-10 12:07

一款国产肺癌创新药头对头击败奥希替尼资讯

一款国产肺癌创新药头对头击败奥希替尼

日前,同源康医药发布公告称,其自主研发的第三代EGFR抑制剂TY-9591(商品名:卡达沙)在对比奥希替尼(商品名:泰瑞沙)作为一线治疗EGFR突变肺癌脑转移的关键II期临床试验中,...

2025-03-10 10:55

“AI+创新药”第一股云顶新耀开拓mRNA肿瘤治疗性疫苗新蓝海,在国内推进至临床阶段资讯

“AI+创新药”第一股云顶新耀开拓mRNA肿瘤治疗性疫苗新蓝海,在国内推进至临床阶段

近年来,AI 赋能创新药研发已成为全球生物医药行业的重要趋势,尤其在 mRNA 疫苗领域,AI 更是成为提升研发效率与精准度的核心驱动力。港股创新药企云顶新耀(HKEX 01952 ...

2025-03-10 09:29

国家卫健委主任雷海潮:引导医疗卫生机构设立体重门诊资讯

国家卫健委主任雷海潮:引导医疗卫生机构设立体重门诊

2024年中国居民的期望寿命达到79岁,提前实现了“十四五”国民经济和社会发展规划目标既定的努力方向。

2025-03-09 19:05

“全力治愈的春天音乐会”乳腺癌公益项目在南京暖心启航资讯

“全力治愈的春天音乐会”乳腺癌公益项目在南京暖心启航

3月7日,南京国民小剧场内,一场特殊的“疗愈音乐会”正在温暖上演。没有冰冷的医学术语,没有沉重的疾病阴霾,取而代之的是歌声、琴声、孩童的欢笑和患者含泪的拥抱。

2025-03-08 18:03