基因组学研究为21世纪生命科学研究领域中非常重要关键的一部分,而随着近年来高通量测序技术的快速发展,基因数据呈现出指数增长,以高通量测序数据库SRA(NCBI维护)为例,2009年数据收录量为10TB,2011年接近100TB,2014年突破了1PB,2015年接近5PB,2016年有望突破10PB。依赖于本地服务器与专业生信分析人员的传统数据分析模式已经难以满足这一大数据背景下的基因组学研究。面对基因数据的指数积累,传统解决方案是添置更多的本地服务器,招募更多的生物信息分析人员,而服务器配置维护、人员招募成本高昂,且可操作性低;其中部分生物学实验室会选择依赖于第三方测序数据分析服务提供商。依赖于第三方数据分析服务存在分析周期长、沟通成本高、标准化的分析无法满足科研需求等缺点,这些已经严重制约了基因组学的顺利开展,而云计算的出现则很好地规避了这些问题。
云计算的独到之处就在于几乎可以提供无限廉价的存储与计算能力。借助云计算技术,基因组学研究者可以通过网络方便的获取大量基因数据分析所需要的基础计算资源(存储、计算等),无需购置昂贵的本地服务器。
近日,百迈客云3.0正式上线,为国内的基因组学研究者提供了更为高效的解决方案。去年10月百迈客商业版百迈客云1.0云正式上线运营,成为了国内第一个适用于多个组学研究领域的综合性的商业化运营生物云计算平台。
百迈客云采用独创的云计算文件系统BMKFS,该文件系统由百迈客研发人员针对生物信息分析的特点开发,支持本地的块存储和基于云的对象存储(例如AWS的S3和阿里云的OSS)。使得用户可以像使用本地硬盘一样使用存储,同时还提供了无限量存储空间的扩展能力,大大提高数据可用性。此外,文件系统还提供了多用户资源隔离的机制,具备多种鉴权和授权机制,确保用户的数据安全。该文件系统与现有的S3FS,S3QL相比,读写性能都有了极大提升。另外,数据安全作为数据分析过程中的重中之重,百迈客云平台采用底层数据加密存储,提供了严格的用户资源隔离,并利用完善的角色权限控制对用户数据进行多级数据权限控制,网站的数据传输采用SSL加密传输协议,从多个层面确保用户敏感的基因数据的安全。
同时,针对国内生物信息分析人员相对稀缺、对第三方数据分析服务提供商依赖性较大的特点,百迈客云提供了相较于国内外同类型云计算平台更高集成化程度的基因组学数据挖掘平台,无需用户自己整合各类分析软件搭建分析流程,真正意义上实现一键完成数据分析,目前分析平台覆盖了转录调控、微生物多样性、动植物重测序、人类疾病等多个组学研究领域。
来源:医谷网