当肿瘤遭遇“信息泄露”_医疗健康

2016

12/23

16:42

古槿科学网博客

作者：古槿

医疗健康

“外”如探测浩瀚的宇宙，“内”如揭示人体细胞的奥秘，海量的信息必将改变人类社会、改变人类自己。

人类已经逐步进入信息爆炸的时代，各种个人信息、网络行为、生活习惯，甚至各种所谓的隐私、银行账号密码等“机密”信息均无法避免遭遇各种泄露门、监控门事件。肿瘤这个邪恶的幽灵隐藏在体内，时刻准备攫取资源来扩张自己的军队。而我们却对之毫无察觉。但随着以新一代测序技术为代表的高通量生物检测技术的发展，肿瘤的机密信息也无处遁形，遭遇着前所未有的“信息泄露”，肿瘤的DNA、RNA、蛋白质、代谢物等生物信息都暴露于人类的检测之下。这些海量信息被称为组学信息（omics），如：DNA序列信息是基因组（genomics）、染色质结构和各种基因组修饰是表观遗传组（epigenomics），另外还有转录组、蛋白质组、代谢组等等。从这些泄漏的信息，我们该如何来窥探肿瘤的“隐私”？如何推出更好的对付“肿瘤”的办法？

拿到海量的肿瘤组学数据我们能做什么？首要任务是建立肿瘤的信息档案。就像是地理测绘测绘，首先要用测到的数据把地图绘制出来。目前，几个国际癌症基因组计划，如ICGC（International Cancer Genome Consortium）、TCGA（The Cancer Genome Atlas），都致力于推动肿瘤分子图谱的构建。利用TCGA的数据，可以识别在肿瘤细胞中发生的体突变，并从中识别出影响蛋白质结构与功能的突变位点（Niu et al., Nat Genet 2015），另一项类似的研究从超过7000余对肿瘤/癌旁配对样本中识别出超过47000个非同义突变位点，极大的提高了人们对肿瘤突变谱的认识（Shen et al., Am J Human Genet 2016）。基于突变谱，可以更好的估计靶向药物的潜在应用比例，经计算估计约40%的病人可能会受益于靶向药物（Rubio-Perez et al., Cancer Cell 2015）。

但由于肿瘤的高度异质性以及不同中心采样和检测手段的差异，单个项目所纳入的样本量仍然远远不够，以肝癌为例，在TCGA中有约400例样本，已经是目前公开数据集里样本数最多的了。为了更好的绘制“肿瘤的地图”，必须建立跨更多数据源的大规模图谱。比如本课题组构建的肝细胞肝癌（Hepatocellular Carcinoma，HCC）组学图谱HCCDB，已经收录了约3500例临床样本的基因/miRNA表达数据、约800例DNA甲基化数据、约600例CNV数据（来源于17组研究），目前可提供表达谱的网页浏览服务。多来源/多中心、大规模的组学数据是建立肿瘤信息档案的基础，基于这些收录的数据，我们已经开展了HCC的DNA甲基化图谱分析（Zheng et al. Brief Bioinform 2016），正在进行基于表达谱的HCC分型研究。同时，HCC相关研究人员可以方便的查询分析结果，指导相关的实验设计，提出更加合理的假设。比如某研究人员正在关注HCC肿瘤干细胞的调控机制，他可以用EPCAM、AFP、SPP1等候选基因来查询相关的通路或基因。信息爆炸的时代或者说大数据时代，绘制各种“地图”是实现数据价值的第一步，从多个维度、多个层次构建“肿瘤地图”是以信息技术攻克癌症的基础和关键。类似的，大肠癌也建立了超过4000例样本（来源于18组研究）的大规模数据集，并基于该数据集分析出大肠癌的四个分子亚型，并得到了每个分子亚型所特有的分子和表型特征（Guinney et al. Nat Med 2015）。

有了基础地图之后，我们当然需要将其绘制得更加精细，并利用“先人的知识”对其进行仔细的标注，比如在军事地图上需要标注出关键的制高点、隘口等。这个时候人工智能技术就非常重要了，针对癌症组学数据高维、异质等特性，需要更好机器学习方法对数据进行挖掘和建模，比如聚类（分子分型，如多组学整合聚类方法LRAcluster）（Wu et al. BMC Genomics 2015）、预测（分子标志物），核心调控网络识别（分子机理）（Gu et al. Mol BioSyst 2014））及其可能的调控策略（药物干预）等。由于生命系统高度复杂，组学数据并不能很好的完成“地图标注”的任务，必须要跟专家知识、文献信息有机的结合起来。这对传统基于采样数据的机器学习方法无疑是新的挑战。可以预见，要更好的解读肿瘤的信息，必须建立可融合采样数据和知识数据的新的人工智能方法。深度学习（deep learing）（LeCun et al. Nature 2015）与层级贝叶斯学习（hierarchical Bayesian learning）（Ghahramani. Nature 2015; Lake et al. Science 2015）的结合是否是可行的路径？这些都还有待进一步的研究。

随着生物医学检测技术与人工智能的发展，肿瘤的“机密信息”将不断的被披露，人们将拥有更多肿瘤诊疗的新手段。

参考文献

Ghahramani. Probabilistic machine learning and artificial intelligence. Nature 2015, 421:452-459.

Gu et al. Gene module based regulator inference identifying miR-139 as a tumor suppressor in colorectal cancer. Molecular BioSystems 2014, 10（12）：3249-3254.

Guinney et al. The consensus molecular subtypes of colorectal cancer. Nat Med 2015, 21（11）：1350-1362.

Lake et al. Human-level concept learning through probabilistic program induction. Science 2015, 350（6266）：1332-1339.

LeCun et al. Deep Learning. Nature 2015, 521:436-444.

Niu et al. Protein-structure-guided discovery of functional mutations across 19 cancer types. Nat Genet 2016, 48（8）：827-837.

Rubio-Perez, et al. In Silico Prescription of Anticancer Drugs to Cohorts of 28 Tumor Types Reveals Targeting Opportunities. Cancer Cell 2015, 27:382-396.

Shen et al. Proteome-Scale Investigation of Protein Allosteric Regulation Perturbed by Somatic Mutations in 7,000 Cancer Genomes. Am J Hum Genet 2016, EPub.

Wu et al. Fast dimension reduction and integrative clustering of large-scale multi-omics data using low-rank approximation: application to cancer molecular classification. BMC Genomics 2015, 16:1022.

Zheng et al. Genome-wide DNA methylation analysis identifies candidate epigenetic markers and drivers of hepatocellular carcinoma. Brief Bioinform 2016, Epub.

来源：古槿科学网博客作者：古槿

标签

当肿瘤遭遇“信息泄露”

为你推荐