“发展医疗大数据不是为了紧跟热点,而是真正有太多实际的需求。所以它的前景是很广阔的,但任重道远,既要仰望星空,也要脚踏实地。”近日,在“医疗大数据应用与实践研讨会”上,解放军总医院医学信息研究所高级工程师薛万国从具体的场景对医疗大数据应用的潜在需求做了深入的前瞻性分析。
目前,国内很多医院已经上线了不少数据应用,但大多都是描述性的数据统计。那么到底什么样的医疗场景才需要大数据?会上,薛万国给同行带来了一些实战性建议,并从医疗大数据的特点、临床的需求以及面临的技术挑战等三个方面,深刻剖析了当前医疗大数据在临床诊疗领域、医学研究、医院管理等各个环节中的应用前景和挑战。
不限于4V特征 大数据核心在于分析
薛万国表示,传统大数据有4个大家普遍接受的特性:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。但实际上,当前涉及的大数据已经有了很多深层次的演绎。这些演绎不是简单地强调大数据的4V特性,也不一定完全符合4V的特点,但是它们有一个总的特征:一定要具有分析的特点。
“以前,我们关注数据量是否足够大,分析速度是否足够快,数据成分是否复杂多样,其实在现在这些变得不那么重要了。”薛万国引用了一句国外行业俗话:Big data is nothing without big analysis.(如果没有分析的话,大数据什么也不是)。这其实强调了大数据的根本特性:核心在于分析。而大数据分析,不仅是传统意义的统计,一定是深层次的分析,包括:相关分析、聚类分析、建模、趋势预测等。
医疗大数据具有四大独特性
医疗大数据与其他行业大数据相比有共性,也有一定的独特性。它的特点具体在四个方面。
第一,数据量大。医院信息化最初管理的数据量并不是很大,但由于医学的持续进步,包括检查手段的进步,如各类检查手段的数字化、大容量的CT扫描等,病历的数据呈现爆炸式增长。此外,精准医学、全基因组测序的兴起,使得一个人的数据量可以达到几十个GB。从这些角度来分析,一个三甲医院每年有几百万的门诊量,如果在未来几年都要管理起来的话,有可能数据量就要达到PB级。
第二,从横向看,医疗数据非常宽泛。医疗大数据的研究对象是人,由于人的复杂性和诊疗的多样性,导致了数据的类型多样性和结构复杂,这其中包括:结构化数据、半结构化数据和非结构化数据。医疗数据中很多都是对非结构化数据进行处理,比如:病历的检索、影像的识别,这都要对大量的非结构化数据进行特征提取和识别处理,处理难度非常大。
第三,数据集成要求高。看病以人为中心,医学视角需要查看人的方方面面数据,所以对数据整合式的展现、管理以及融合式的分析要求都特别高。
第四,从纵向来看,周期长。与其他行业不同,面向患者需要管理的医疗数据生命周期特别长。从人出生开始到死亡,期间的数据都要能够保存。这也是区域医疗共享以及连续医疗现在所提倡的核心内容。
医院对医疗大数据的四大需求
薛万国认为,从医院角度来看,对医疗大数据的需求分为四个方面:临床诊疗、医学研究、医院精细化管理和基础性应用。
第一,临床诊疗。用大数据直接帮助医护人员开展临床活动,包括:个性化的诊疗、疾病的早期诊断、不良事件的预警(如感染等)。以美国癌症协会CancerlinQ项目为例,该项目把美国20多家医院乳腺癌的病例都收集起来,共有17万份。经过整理后,按照肿瘤类型、病人年龄、个体情况、肿瘤治疗方法、药物使用进行分组,形成一个路径以及生存周期结果,最后得出不同人群的治疗路径。以前看病治疗依靠的是临床指南,而现在把病人信息录入数据库中分析,基于真实世界的研究,从而量体裁衣,找到更加合适的个性化治疗方案。
针对早期诊断的大数据应用,薛万国提到了缺血型心脏病案例。该病种可以根据心电波形、检验结果、心脏血管成像提炼大量相关症状因素建模,形成早期疾病的预判和干预。虽然现在还不能代替人类去做诊断,但是在筛查时候可以形成高效的辅助作用。
而对于不良事件预警方面,如心脏介入手术后,可能会发生一些不良事件,也可以通过相关因素分析,找到一些提前预警和干预的因素来建模分析。
第二,医学研究。大数据可以帮助医学界更加深入认识疾病,包括:对疾病相关因素的分析、对疾病的精准分析、对于疾病诊断的一些生物标记的筛选等。传统上,医学界对病人的分析都是来自于临床上的症状、检查结果、病理分析。有了生命组学大数据后,则可以对病人更加细化,形成个体性的同类病不同治疗方法。而对于生物标记筛选,大数据可以聚类分析,并反映出一些疾病检验结果的临界区间,通过多参数、多个生物标记更准确确定病情,给出更优的治疗方案。
第三,医院精细化管理。大数据可以提供全方位的、精细化的、个性化的绩效评价体系。以美国为例,为了减少再住院率,美国特地建了一个模型来评估再住院风险。有些医院靠这个模型预测准确性可以达到79%,减少30%的再住院病例,给医院和病人节省了大量开支。再如感染监测,其实就是典型的大数据应用。它把病人的方方面面数据,包括检验、生命体征、护理措施、用药等融合在一起,建立模型来分析病人是否发生感染,这比人为事后发现更为及时。
第四,基础性应用。包括:大数据的检索、专科数据库建立、随访数据手段建立。现在医护人员直接利用计算机来检索自己所需病例的工具还很不完善。例如,肿瘤的化疗病历,医生在写病历时会写下肿瘤的分期,但是在结构化的数据里很难有关于分期的描述,所以利用计算机找某个肿瘤分期病历时很困难。另外,随访的需求也是难点。随访在各个科室是散乱的,没有统一的系统,数据源没法共享。调研发现,很多科室都有数据库,大部分是用Excel表管理,不能解决统一管理问题,导致数据检索使用滞后。
打破小米加步枪模式
薛万国认为,医疗大数据应用涉及三方面要素:好的思路、好的数据支持,以及好的技术手段。当前发展医疗大数据,在这几方面都较为欠缺。“很多医院和科技公司还是采取小米加步枪的方式在做大数据的研究。”他进一步指出,当前医疗大数据面临三方面的挑战。
第一,医学的自然语言(NLP)的处理。它是非常基础性的需求。比如要查找吸烟的患者,如果仅仅简单做一个关键词检索的话,结果很可能将吸烟和不吸烟相混淆。所以系统设置至少应把语义以及简单基本的否定语义识别出来。
第二,病历检索工具。医务人员需要非常灵活的检索工具,虽然很多企业在做医疗搜索,但目前还没得到理想的的解决方案。比如,医务工作者想要检索查找化疗后白细胞下降的患者。这个问题在系统设置上其实并不好表达。
第三,专科专病数据库的构建现在很多还靠手工操作。这是因为很多数据需要从病历找出来,然后填进去。据了解,科室整理一份科研病历需要2-3个小时,工作量太大,所以整理病历很难持续下去。就目前来讲,还没有很好的智能化工具去做病历收集。现在需要的是通用化随访平台,做到集中管理、随机随访、医患互动。让患者参与到医疗过程中来,提供足够有用的随访结果。要实现这一目标,既需要技术的支撑,更需要机制的配合。
来源:HIT专家网 作者:陶玲