生物信息的快速增长与数据产出成本的不断下降,必然带来更多的数据处理需求。精准医疗、人工智能、基因测序,包括产前筛查、新生儿、遗传病,以及癌症相关的诊断和用药指导,这些前沿产业的背后都需要数据处理能力的支撑。
基因数据领域其实国外已经有一些公司在做了。Seven Bridges Genomics(七桥基因)是美国一家创业公司,去年拿下了美国国家癌症中心 580 万美元的癌症基因组云计算项目,今年3月,获得英国健康部和基因组英国公司?1.95 研究资助,以建立世界上第一个功能图结构基因组参考序列,和一套相应的分析工具,被称为未来的独角兽公司。具体到产品,就是基于公共云计算平台,提供各种生物信息分析服务。另外,通过在公有云上的服务,树立品牌,然后为药厂等机构提供基于私有云或者混合云的生物数据管理和分析解决方案也是好买卖。
生物数据分析流程比较复杂,涉及不同的语言和工具,数据量和计算量都不小。随着以阿里云为代表的国内公共云计算服务的成熟,以及 AWS 进军中国的脚步不断向前,国内基于云计算的生物数据分析创业公司也开始涌现。
聚道科技的GeneDock就是一家基因大数据云计算服务平台。公司提供基因数据的传输、存储、分析、计算、协作和应用等一体化解决方案,将生物信息云服务化。同时提供开放的接口,让用户能够方便地来管理和操作数据,最后根据用户需求生产报告。
GeneDock 的合作伙伴包括生物信息研发团队、科研机构、检测 / 测序服务商等。这些机构擅长通过测序所获得的信息来进行肿瘤诊断、遗传病风险评估、传染病源分析等。GeneDock 提供的基因大数据分析技术,可以帮助他们更安全、高效地获取关键信息。另外,通过运用数据压缩技术来减少传输和存储的时间及成本,使用分布式调度和执行引擎来加速数据分析速度和通量,GeneDock 提供的云服务不仅可以帮助用户减免硬件的维护和更新费用,也可以降低数据分析的成本门槛,使过去很多无法承受的多样本分析任务不再受本地有限的数据处理能力的困扰。
以前的基因组研究所涉及的数据量比较小,大部分是 Mb 级别的数据。现在由二代基因测序所带来的基因数据量井喷,一个人类全基因组测序所产出的原始数据就是 100-200Gb。基因数据的增长背后有两大原因,一方面是成本下降,一方面是生产速度提高。而且,大数据另一个重要的性质是多样性,现在的趋势是组学的交叉研究,多个维度的数据交叉必然会使得数据的分析压力越来越大。
所以随着基因数据不断增加,很快数据处理会成为整个业务流的瓶颈。然而,国内一些科研和医疗机构相对保守,还不能接受商业化的服务。公司创始人兼 CEO 李厦戎博士解释说,这是因为国内市场分工没有那么明确,其实平台和行业中已有的公司之间的关系不是竞争,更多的是合作关系。公司并不提供直接 ToC 的报告,而是在原有数据基础上生产报告,后续解读还是由 B 端客户完成。
上周,公司联合三方共同推动 “云之稻项目”,对外分享 3000 份绿色稻基因组原始测序数据。这项研究将有助于发掘水稻优良基因,突破水稻复杂性状分子改良的技术瓶颈,加快高产、优质、广适性新品种培育的进程。后续公司将继续完善数据技术,提供标准化服务流程。
团队目前在北京,团队 25 人。创始人兼 CEO 李厦戎博士是前阿里巴巴友盟首席数据科学家,联合创始人兼 CTO 王乐珩是前阿里云大数据产品经理,拥有多年生物信息系统的开发经验。商务副总裁李清林之前担任华大基因科技服务体系 VP,有多年的生命科学产业战略规划经验。另外,公司的科学顾问蒋丽华是斯坦福大学遗传系质谱中心主任,长期从事跨组学整合研究。公司获得经纬领投的 A 轮融资。
来源:36氪 作者:唐女侠