在生物基础研究中,由于对细胞系的命名缺乏统一的标准,因此造成了细胞系鉴定错误,交叉污染以及缺乏注释等问题,最终这些问题严重影响了科研的产出效率。
历史上使用的细胞系的名字都由第一个发明它的科学家所贡献,而直到最近才有一些相关的科学命名建议被提出。这些古老的命名方式十分不精练,缺乏科学性,而且本身的一致性又较差。比如一种叫做SK-BR3的细胞系,如果用"SK-BR3" 作为关键字在NCBI pubmed中进行搜索,最多只能找到81篇文章,而如果把中间的连接符去掉,使用"SKBR3"进行搜索,则能够找到645篇文章,这种问题比比皆是。
细胞系命名的不一致还对数据的整合与分析造成了影响,随着近年来细胞数量与实验数量的上升,这一问题变得格外明显。比如,如果比较Sanger数据库与癌细胞系百科数据库中的细胞类别,可以得到454株相同的细胞系,而在这454株细胞中,有59株(13%)的细胞在两个数据库中的名字是不一致的(像Panc-03-27与Panc23.27等)。这在数据分析过程中很容易造成重复引用问题。
然而不仅仅是名字,细胞系的其它一些性质(比如组织, 物种,疾病类型以及病理特征等)均存在描述不够严谨的问题。比如说"adenocarcinoma."根据汇总所有数据库的资料,总共有80余种细胞系可以被定义为"adenocarcinoma",这说明这种描述根本不够确切。
为了解决这一问题,来自美国Genetech公司的Richard M. Neve等人开发出一种新的,适用于科研界与商业界的细胞描述方法。
简单来说,作者们首先从各大数据库(ATCC, DSMZ, JCRB, ECACC)中收集到了初始的细胞系信息(6857株细胞),根据名字的重复与否进行去除冗余步骤得到3,587株参考细胞系。之后,作者通过手动的方式将细胞的大小写,标点等符号性的区别加以去除,细胞系携带的疾病特征描述信息通过参照国际疾病分类数据库等的标准加以矫正,再此过程中再一次去除冗余的细胞。在经历上述步骤后,如果还有同一类细胞系在不同的数据库中名称不同的情况,那么久翻阅最初发现者的相关文章,以其中对这一细胞的命名为标准。如果原始文献的标准也不统一,那么就以最简单的名称为准。
经过筛选后的细胞系下一步准备进行录入。录入时需要提供四项基本信息:
1.独特的细胞名称
2.物种来源
3.最原始组织来源
4.组织的病理特征。
作者们还提出了一个"C-name"的概念。在最简单的情形下,C-name就是细胞系的名称。如果某一类新的细胞系同另一类细胞系中衍生得到,那么它们拥有同一个C-name,但是新建立的细胞系还要拥有一个新的子名称。如果有多种细胞从同一患者的同一组织中衍生得到,它们拥有同一个C-name,否则需要分别建立各自的C-name。
另外,为了解决细胞系之间因交叉污染导致来源不清楚的问题,作者优化了STR(simple tandem repeat)以及SNP(single nucleotide polymorphism)的方法进行细胞系的鉴定。在此不作赘述。
联合上述两项方法,作者希望能够为细胞命名的改革提供一个基本的平台,让我们以后的基础科研更加有序与高效。
来源:生物谷 作者:dingka编译