试想一下,在一个平台上就能实现全球基因组数据的搜索和访问,是不是可以帮助研究人员轻松解决数据查找问题,从而提升基因组学研究的整体速度。
英国剑桥的Repositive就是这样一个免费的在线平台。Repositive集结了来自全球各地的基因数据资源,用户通过这个平台就可以实现数据资源的搜索和访问。
这样一个操作简单且轻松的平台,可以帮助研究人员更有效的寻找到可靠的数据信息,不仅能够帮助研究人员节省下大量数据挖掘的时间,还能帮助把这些数据的价值发挥到最大。
Repositive创始人兼CEO Fiona Nielsen毕业于南丹麦大学,曾是illumina的生物信息科学家,她认为精准医学的成功与否,实际上取决于数据信息的价值。因此,她认为Repositive所做的信息挖掘工作,将有可能改变基因组学研究的现状。
挑战:数据访问是主要瓶颈
在生物制药领域,无论是大型企业还是小公司,通过基因组学数据去评估药物风险和药物开发价值是必不可少的一步。这一步,基因组学数据是基础,这需要寻找到大量的基因组学数据集进行统计。如何获得及时且有效的数据资源,对这些公司来说非常重要。
然而,对基因组学数据研究人员来说,这些数据的查找和访问令人头疼的问题。全球领域开展了基因组学研究不计其数,一方面积累了丰富的数据资源,但另一方面,这些丰富的资源也给信息的查找带来了挑战:这些资源要如何访问?找到访问入口后要如何从海量的信息中查找到自己想要的信息?
无疑,在这样的模式下,信息查找是非常繁琐、费时的工作。
Nielsen从事过一些学术和商业研究工作,这种糟糕的经历她有过不少次。做了几年研究工作后她发现,基因组学临床解读的瓶颈其实并不在分析算法和设备上,而是缺少一个真正准确可靠的数据资源和查找方案。
2013年12月,Nielsen做了个决定,她从illumina辞职,成立了慈善机构DNAdigest。Repositive就是DNAdigest的一个产品,希望通过帮助科研人员轻松实现基因组学数据的查找和访问,以加速基因组学研究。
“我不是一个成功的科研人员。”Nielsen承认,“但我想我能做点其他的,让有能力的科研人员做的更好。”
解决方法:数据资源整合
很多人想知道,在这样一个数据资源整合平台建立之前,科研机构是如何实现资源访问的呢?现实中的科研工作并非像电影里那么炫酷,更多的是日复一日的试验,记录,重复。数据查找和访问更是份枯燥且繁琐的苦差。
事实上,目前各家数据资源的标准都不一样。而要使用这些数据,首先要做的就是资源整合,把各家标准统一,工作量非常大。其次,全球范围类的数据集合那么多,要挨个去查找是极其麻烦的。如果要把所有的数据库都扒一遍,即便是HGNC、OMIM以及Uniprot这些明星科研机构的科学家们,恐怕也得皱一皱眉。
这就造成了两个现象:一是数据查找和访问花费了研究人员大量的时间和精力;二是即使信息无处不在,但许多信息其实是被闲置的。
Repositive则可以一劳永逸的解决这些问题。通过Repositive,用户可获得多个知名的基因数据库的访问权限,这其中包括全球知名的数据库,比如1000人基因组计划和基因表达图谱(Genome Expression Atlas);还有爱沙尼亚生物中心、GenomeAsia100K这些鲜为人知的数据源;甚至还包括了InSilico DB 和 Xpressomics这样的企业数据。
目前,Repositive平台上已经集结了全球范围内超过100万个数据集,数据量每个月都在扩大。Nielsen透露,他们的目标不仅仅是公共的数据资源,同时还要把世界各地的大型数据库,科研机构、公司以及公益项目的数据也吸收进来。
据了解,Repositive已经与阿斯利康、默克以及未因生物等制药巨头和生物公司达成合作,将共同建立一个支持肿瘤研究的协同数据库。该项合作的目的是为从PDX模型到特定环境的肿瘤研究,提供数据发现和访问的入口。
精准医疗是最大受益方
通过这样一个数据平台,受益最大的就是精准医学领域。精准医学根据个人的遗传背景来寻找适合的治疗方法,对疾病基因层面的认识是基础。要从基因层面认识疾病,没有强大且可靠的基因组数据资源,是无法实现的。
除了惠及各地的基因组学研究人员,Repositive也将为数据提供方带来福利。通过Repositive,他们可以扩大自己数据资源的影响力,同时还能获得更多的资源,推进科研研究。
在保证患者和数据捐赠者权益的前提下,Repositive希望向更多的研究人员提供数据访问解决方案,以此将这些信息的价值最大化。
下一步,Repositive还希望像研究人员提供更多具有人口多样性特点的数据,以保证研究结果的准确性和全面性。截止到2016年,Repositive已累计获得融资1200万美元。
来源:动脉网 作者:周梦亚