在生物界素有“科学怪人”“坏小子”等称号的生物学家Craig Venter,是人类基因组测序先驱,他使用“散弹定序法”对人类基因组草图完成做出重大贡献。同时,Venter也是一名企业家。他是塞雷拉基因组公司(Celera Genomics)的创办人与前任总裁,是克莱格?凡特研究所(J. Craig Venter Institute,由TIGR所建立)的主席。2005年,他与其它人合伙建立了合成基因组公司(Synthetic Genomics),专门以经过改造的微生物生产作为替代燃料的乙醇(酒精)与氢。
2014年3月,Craig Venter创办Human Longevity公司,总部设立在圣地亚哥。Human Longevity有一个宏伟愿景:一年内对100,000个人的基因组进行测序,通过建立在基因组背景上的医疗模式将医疗运作朝着预防转变。Venter表示,他的目标不一定是延长寿命,而是拓宽更健康、高效率的寿命。
公司以8000万美元的初始资金开始运作,Venter预计可以维持18个月。在里程碑前夕,Bio?IT World的编辑Allison Proffitt关于Human Longevity第一年的收成及数据库构建情况采访了HLI公司的首席信息主管Yaron Turpaz。
Yaron Turpaz,HLI公司的首席信息主管。凭借在阿斯利康(AstraZeneca)、礼来(Eli Lilly)丰富的信息研发经验加入HLI。主要负责:构建和拓宽公司基因组和表观学数据库;领导生物信息学和软件工程的开发;扩大HLI加州驻点的信息学项目;构建HLI新加坡驻点的计算机和信息学项目硬件和软件系统。
记者:作为首席信息官,你在HLI的职权和责任重大,在你构想里Human Longevity有什么发展预期?
Yaron Turpaz:我们正在尝试的目标是将医疗保健简易化。我们预计将医疗朝着预防转变。到那个时候,当你生病了,就不仅仅是传统意义上的看医生,而是借助基因组数据定义基准、评估风险和跟踪确切的早期峰值变化从预防的角度解读疾病。
另外,我们做的很多工作都将被用于未知疾病的发现、生物标记物的发现、患者分级护理。我们工作的核心是建立成千上万的基因组数据库,并与大规模微生物组学和代谢组学结合。可能的话,数据库也期望与完整的人体核磁共振成像(MRI)和其他化验关联。我们将尝试整合这些信息进行下游分析——通过精确的统计和多维数据赶超传统的信息学分析。
记者:数据库构建的目的是什么?
Yaron Turpaz: 我们创建了世界上最大的测序规模。目前,我们有能力每年以30x测序深度对40,000个全基因组进行测序。我们从Illumina公司购得24台HiSeq X10测序仪。这些设备最初的设想只是用于实验室,同步计算机和信息系统,以前所未有的规模和速度处理大量数据。大多数情况都基于云计算,所以我们尝试尽可能使用云服务器。
基本上,测序仪提供数据,由EMC Isilon存储打包,上传至云服务器,用于下游的数据分析和实践。
我们已经与Genentech达成合作关系,且目前正在商讨与其他制药公司的合作。依据签署很多重要合同的需求,我们将扩大测序深度和仪器设备。 我们正在构建商业化的HLI数据库,不同的公司都可以订购,以便提炼数据和寻求企业转型。
记者:你提到预计整合人类基因组测序、微生物基因组测序、全身核磁共振成像这些数据用于下游分析,但是公司从哪里获得数据呢?
Yaron Turpaz:当我们建立起大型的合作,我们保留对数据的权限,所以不是你提供样品,就能获得你的数据。只有当样品具备高质量的表型和临床数据,我们才会进行测序,测序结果会自动合并入HIL数据库。这是数据库的主要来源。
另外,我们通过与制药公司合作改变临床试验的标准,从而使得数据库能够匹配任何类型的临床试验。你可以想象,未来每一个临床病人都有一套完整的基因组数据。
记者:Craig Venter曾说过,公司开始对人脸进行3D扫描,这种数据符合入库标准吗?
Yaron Turpaz:我们招募了1000志愿者开始这个项目。对脸部信息收集,结合他们基因组数据和其他相关参数进行分析。这仅仅是个开始。今年,我们在圣地亚哥启动首个 HLI“健康俱乐部”,作为对个人进行完整全基因组分析、全身MRI和其他详细表型数据采集的开始。
“健康俱乐部”的第一阶段,数据仅作为研究使用,个人信息有助于病患与医生沟通。数据集来自云服务器和与制药企业、医院和研究机构协作。目前,比较于企业、医院和临床试验,“健康俱乐部”中健康的个人或者患者信息将不是数据库的主要来源。
记者:数据库的采集有时间纵向吗?
Yaron Turpaz: 这是“健康俱乐部”的优势之一。举一个例子,我们收集不同时间点的粪便样品用于微生物种群分析,目前也在考虑通过唾液或者皮肤样品收集不同来源的微生物种群。我们启用宏基因组分析微生物。
尽管大多数微生物仅根据16S基因进行分类,但是我们相信,跟进和继续了解微生物种群,将它们与人类基因组信息整合很重要,有助于解析微生物致病的具体过程。
记者:公司有生物库吗?你们会把所有样品或者所有的事物都数字化吗?
Yaron Turpaz:HLI关注个人的数字化结果。我们的目标是生成所需数据进行分析。我们遵循每项研究的规则和限制。
记者:所以,数据是从制药公司以及“健康俱乐部”中获得,然后对这些数据进行存储、分析,并在所有的数据中找到下一步要做的工作吗?
Yaron Turpaz:差不多是这样。我们的目标是获得高通量数据,然后存储、开发进行下游分析。分析可以通过APIs进行批量处理,或者也可以通过制药公司和医生订阅HLI数据库进行。我们有不同来源的数据,且与全球制药生物技术公司、医院、研究机构、学术界、政府 机构、生物银行和保险公司紧密合作。
记者:构建这些数据库时,遇到的最大挑战是什么?
Yaron Turpaz:第一年,首要挑战是建立生产实验室和分析部门。而现今我们的关注点是数据的下游。所以,现在我们有高质量的基因组信息,且这些数据存储于云服务器用于优化分析,包括下游多维分析和生物学解析。
记者:数据库的目标通量是多少?
Yaron Turpaz:我们的目标是截止2020年,构建一个至少有一百万容量的基因组数据库。想在目标时间段里达到预期数量集,很显然,我们需要扩大技术和设备,其中测序技术需要在速度和质量上改良。
技术的进步不可预知,所以,现在我们拥有Illumina公司的仪器,拥有两台PacBio仪器。我们的目标是通过最好的技术找到最高质量、高效、成本合理的解决方案。
记者:你说目标是一百万基因组,但是刚刚你表示不那些没有表型和临床资料的样本进行测序。所以,一百万基因组是否都要有对应的表型和临床数据?
Yaron Turpaz:是的。因为我们相信,下游分析很重要,高质量的数据库最终有利于实现医疗保健的转型目标。
记者:获得数据,存储和分析,你们是怎么选取某类数据能够开始应用于临床?还是仅仅采集数据然后观测那些特殊数据?你会做出你的合作伙伴们想让你做到决策吗?
Yaron Turpaz:这个过程分阶段进行。初步分析由我们合作者的利益驱动。当然,我们的目标是让我们的合作方能够在关注的研究上获得对未知的解答。HLI关键价值是,在我们的数据库中对所有基因组进行分析,分析的下一步自然而然,就是将数据与其他相关参数集合整合,生成或者检测新的推测。
来源:生物探索