近年来,测序市场呈现出百花齐放的美好局面。这使得测序的成本不断下降,但同时也带来了数据分析的难题。经济而又高效地处理全基因组测序的数据,相信是每个人的愿望。如今,一个开源的基因组分析平台也许能满足你的愿望。
这个平台被称为SpeedSeq,由华盛顿大学医学院等机构的研究人员开发。它利用低成本的服务器,在短短的13小时内即可完成50x人类基因组的比对、变异检测和功能注释。这项成果本周在线发表于《Nature Methods》上。
二代测序技术的进步降低了全基因组测序所需的成本和时间,为人类基因组的深入探索提供了机会。然而,计算处理和变异解释的瓶颈阻碍了这些技术的广泛采用。通常,人们要使用多个工具和60-70个小时来处理50x人类全基因组,才能从原始序列数据中获得变异检出。此外,区分致病和良性的突变,也是一个费时费力的过程。
此次开发的SpeedSeq是一套开放源代码的软件,专为快速的全基因组变异检测和解释所设计。它采用模块化的架构和通用的格式,适合各种实验设计,并与行业标准的软件兼容。SpeedSeq可将50x WGS原始数据转化成单核苷酸变异(SNV)、短的插入缺失(indel)和结构变异(SV),而只需要一台32线程的服务器和128 GB的内存,成本低于1万美元。
研究人员利用瓶中基因组计划(GIAB)的人类样本NA 12878来评估SpeedSeq在SNV和indel检出上的准确性。他们发现,对于生殖细胞的SNV和indel,SpeedSeq分别实现了99.9%和89.9%的灵敏度,而错误发现率也在可接受的范围(分别为0.4%和1.1%)。这些表现甚至超过了人们常用的GATK-UG工具。
癌症基因组分析也是科研和临床环境中一个常见的WGS应用,对时间颇为敏感。为了检验SpeedSeq在癌症数据上的表现,研究人员获得了五组肿瘤-正常的WGS数据(50x肿瘤、30x正常),其体细胞突变经过验证。SpeedSeq检出了五组数据中2,746个正交验证突变中的96.4%,包括癌症相关基因中98.8%的突变。
结构变异的确定也是基因组全面分析中重要的一部分,当然也存在一定的挑战。据介绍,SpeedSeq通过三个互补的工具而实现了全面的结构变异分析。它的核心是LUMPY,一个断裂点检测工具;CNVnator利用读取深度分析来检测LUMPY发现不了的CNV;SVTyper这种算法能够对结构变异进行基因分型。通过这种组合,SpeedSeq能轻松找到基因组重排。
作者认为,SpeedSeq在检测生殖细胞和体细胞的单核苷酸变异、结构变异、插入和缺失时,其表现与现有方法相当或更佳。
来源:生物通