大数据很热门,各行各业都在谈大数据,据说连卖油条的都在用移动互联网,在谈大数据了。自从我说了我们医院今年的信息工作重点有三项:移动互联网、云、大数据以后,我也被当成大数据专家,受邀发表议论和在论坛上演讲了。
虽然大数据很热门,大家也都在谈大数据,但是真正懂行的专家还是很少。因此,大数据有点像青少年谈性Teenager sex,Everyone talks about it(每个人都在谈), nobody really knows how to do it(没人真正知道怎么做), everyone thinks everyone else is doing it(每个人都认为别人都在做),so everyone claims they are doing it too(所以每个人都声称自己在做)。
既然大家都不懂,起点也就差不多,所以受邀请演讲我也就不会那么心虚了。在准备讲稿之前,我刻意没有去看书,也没有去看文献。完全从一个临床医生的角度去思考什么是大数据,大数据会给医学带来什么影响,我甚至杜撰了几个关于大数据的英文词,如果这几个词真的是存在的,纯属巧合。
先谈谈循证医学
最近,我的一位好友,来自美国的Michael A. Belfort教授在着名的“新英格兰医学杂志NEJM”上发表了一篇文章。对于做临床的医生来讲,这辈子能够在NEJM发表哪怕一篇文章也就值了,所以我就通过WhatsApp向他表示了祝贺。他的这篇文章是来自美国母胎医学协作网络的一项大样本多中心随机对照研究,是I类证据,理论上讲这篇文章的结论是基本上判了STAN(ST Analysis,胎儿心电图ST段分析)的“死刑”。
这篇文章的题目是:A RandomizedTrial of Intrapartum Fetal ECG ST-Segment Analysis.Michael A. Belfort, M.B.,B.Ch., M.D., Ph.D.et al, N Engl J Med 2015; 373:632-641,August 13, 2015.
本研究招募了11,108 名孕妇,随即分为“开放组”和“不开放组”,“不开放组”有5576名孕妇,进行常规胎心监护;“开放组”有5532名孕妇,在常规胎心监护的基础上给予STAN结果。对两组孕妇比较围产儿总的不良结局:死胎、新生儿死亡、5分钟Apgar评分小于等于3分、新生儿抽搐、脐动脉pH 小于等于7.05、剩余碱大于等于12 mmol/L、分娩时新生儿插管或人工通气、或新生儿脑病。在“开放组”组,共有52例不良结局(0.9%),在“不开放组”,共有40例不良结局(0.7%)。结论是,在常规胎心监护的基础上,加用STAN并不能改善围产儿的不良结局。
这种小概率事件,通过样本量不大的研究,得出的就是一个I类的循证医学证据。但是,很有可能多几例和少几例的情况就会导致完全不同的结论。还有可能是如果其他人再做一个同样的研究,也可能得出完全相反的结论,也是I类证据。
让我们再看看另外一个案例,OGTT的标准是如何制订的。在1964年,O'Sullivan招募752名正常孕妇,口服100克葡萄糖,在空腹、口服糖水1h、2h、3h测定血糖水平,取第97.7百分位数,得到的平均血糖具体数值是:90mg/dl 、165mg/dl 、143mg/dl 、127mg/dl。为了记忆方便,O'Sullivan修正了数值(Rounded off value),制订了沿用到现在的OGTT标准:90mg/dl 、165mg/dl、145mg/dl、125mg/dl。目前我们临床应用的很多诊断标准都是这么来的,从几百人到几千人的数据形成标准,由点推论到面。
这就是现代医学的基础,这就是现代医学的标准。如果从大数据的角度来看,无论是Michael A. Belfort教授的结论,还是OGTT的标准,都样本量太小,太不可靠。
大数据就是精准医疗
大数据会从根本上改变我们目前的临床医学,这种改变将会是革命性的,是颠覆性的。我们现在的诊断标准和临床指南是从几百人到几千人的数据中得到的,是抽样得到的,是由点推论到面(From someone to ALL),是农业时代和工业时代的做法。现在我们已经进入了信息时代,互联网时代,大数据时代,这种旧的思维方式和统计学方法已经不适用了。我上面所列举的两个例子完全可以用海量的大数据来替代,因此得到的数据会更加可靠,结论也就会更加可信。
以下是我对医学大数据的定义:
Big Data: Each and everyone=ALL,大数据就是包括所有的人
Population Big Data(群体大数据):Something about everyone(所有人的某些方面的数据,例如所有人血糖的平均值)
Personal Big Data(个人大数据):Everything about someone(某个人的所有数据,例如一个人的基因组学、蛋白组学等)
Population Big Data(群体大数据)+PersonalBig Data(个人大数据)=Precision Medicine(精准医疗),将一个人的个人大数据与群体的大数据比较就会发现问题在哪里,就可以进行真正的精准医疗。
大数据会改变整个临床医学
现有的临床疾病诊断体系基本上是以器官和系统为基础的,我们的临床学科也是以器官和系统分类的,例如肾脏科、心脏科、眼科、血液科等,这是在农业时代形成和工业时代完善的。
但是,很多疾病的表型(例如肾炎、各种遗传综合征)看上去是一样的或很类似的,但是基因型可能完全不一样。对于这些表型相同或类似的肾炎,我们需要的是完全不同的治疗方法,在治疗之前我们必须知道它们的基因型;很多表型完全不相干的疾病,可能基因型是完全一样的,例如某一细胞信号通路的障碍可能会同时导致肾脏出问题、肝脏出问题,眼睛也出问题。但是这种病人往往会找不同科室的医生去看,采取的治疗方案也会不一样。
Big Data(大数据)&Sequencing(测序)将会改变这一切,未来的疾病可能会是以分子分型的,而不是像现在这样以器官和系统命名的。未来你的诊断可能不会是像现在这样的“肾炎”、“肝炎”了,可能会是由各种数字和代码组成的,例如你的疾病是:2698-4D7B,或者是A28-736,我们的科室也可能不仅仅是眼科或肾脏科了,还可能会出现各种奇怪名称的科室和专科医生。
Big Data会改变医学统计学和临床流行病学,有了大数据,大多数的统计学方法可能都不需要了。
Big Data会改变疾病的诊断体系,分子诊断的名称会取代多数的器官和系统的疾病名称。
Big Data会改变治疗方式,精准的靶向治疗去取代目前的粗放式的shotgun治疗方法。
没有Big Data的时代,我们很多疾病的诊断标准都是Arbitrary(随意的), Presumption(推定的),Rounded off value(修正的数值和标准),现在是时候改变了。
医疗大数据存在的问题
It's not big enough
It's not clean enough
真正的医疗大数据专家太少
来源:段涛医生微信号 作者:段涛