生物学家在开始对基因组进行测序时发现:似乎没有父母亲或任何家族渊源的基因在每个物种中多达三分之一。然而,这些“孤儿基因”中不乏成就卓着的个案,甚至对人类大脑进化发挥过作用的也不在少数。
这些基因没有显而易见的祖先或生命演化史,那么它们究竟从何而来呢?
没有任何家庭成员或亲属的孤儿是不幸的,他们常常得不到赏识,仿佛被打入另册似的忐忑不安,必须不计成败地竭力通过适应和打拼才有望发挥他们的潜能。但那些获得成功的孤儿,比如史蒂夫·乔布斯,有时候却能改变世界。
谁曾料想,我们的DNA(脱氧核糖核酸)竟会款待一批命运与此相似的宠儿呢?生物学家在开始对基因组进行测序时发现:没有父母亲或任何家族渊源的基因在每个物种中竟多达三分之一。然而,这些“孤儿基因”中不乏成就卓着的个案,甚至对人类大脑进化发挥过作用的也不在少数。
那么,它们究竟从何而来呢?这些基因没有显而易见的祖先,仿佛突然从什么地方冒出来似的,但那又不可能是事实。人们想当然地认为,随着掌握的知识增多,我们会探明它们的家族究竟遭遇了什么剧变。但是,事实刚好相反,我们什么也没有发现。
追溯渊源
处于生命黎明期的最早基因,一定是纯属偶然地仓促形成的。但是,生命几乎肯定肇始于一个RNA(核糖核酸)世界。
自从我们发现基因以来,生物学家就一直在思索着它们的渊源。处于生命黎明期的最早基因,一定是纯属偶然地仓促形成的。但是,生命几乎肯定肇始于一个RNA(核糖核酸)世界,所以当年的基因不仅是制造酶并由此引导化学反应的蓝图,而且它们本身就是酶。如果随机过程匆匆形成的是一段有助于更多地复制自身的RNA,自然选择就会即刻介入。
不过,当活生生的细胞得到演化时,事情就变得复杂多了。一个基因会变成一截为蛋白进行编码的DNA。若要制造一个蛋白,就必须形成RNA对DNA进行拷贝的副本。如果没有DNA开关,就不可能发生这种状况,而DNA开关实际上无非是零星的额外DNA,与零星的蛋白编码并列在一起发出“将这个DNA拷贝到RNA中去”的指令。接下去,便轮到RNA进入蛋白制造工厂了。对于复杂的细胞而言,需要有更多额外的序列在现场充当标签,发出“将我输出”和“开始从这里制造蛋白”的指令。
其结果是:随机突变将零星的垃圾DNA转化为新基因的概率好像小得微乎其微。正如法国生物学家弗朗索瓦·雅各布在35年前那次着名的阐述中所指出的:“功能蛋白借由氨基酸的随机联系而重新出现的可能性几乎等于零。”
然而,早在上世纪70年代就有人提出:对单一基因的意外复制可能会导致整个基因家族的崛起,这颇有点像动物随着时间推移而分叉成相关物种的家族。完整基因不慎遭复制是常有的事,多余的副本通常会被丢失,但复制的结果有时候会开始私下里和原始基因一起分享功能,要不然就转而接纳新的功能。
以所谓视蛋白的感光色素为例:我们眼睛中的各种视蛋白不只是彼此联系,它们还与其他从水母到昆虫等很多动物的视蛋白密切相关。遍布整个动物王国数千种不同的视蛋白基因全是经由复制得以演化的,其始作俑者则是约7亿年前繁衍不息的共同祖先的单一基因。
大部分基因属于一个相似的家族,它们的祖先可以回溯到数百万年之前。但是,人们在15年前对酵母菌基因组进行测序时发现:酵母菌基因约有三分之一好像是没有家族的。于是分子生物学领域出现了一个术语—“孤儿”(拼作ORFans),用来形容没有已知亲属的个体基因或者范围狭小、非常相似的基因群落。
“如果看到基因而找不到亲属,那就该心生疑虑了。”在宾州州立大学研究复杂生物性状的肯·怀斯声称。在有些人看来,“孤儿”等同于遗传活化石,就像空棘鱼类这一古家族最后的幸存成员那样。也有人认为,它们看上去没有什么特别,只不过是其家族至今仍未找到的普通基因而已。归根结底,对整个基因组的测序还只刚刚开始。
与日俱增
孤儿基因现身于迄今经过测序的每个基因组,从蚊子到人类,从蛔虫到小鼠,其数量还在不断增加。
但是,随着越来越多的有机物接受基因组测序,遗传家族重聚被证明是例外而并非法则。从那时以来,孤儿基因就现身于迄今经过测序的每个基因组,从蚊子到人类,从蛔虫到小鼠,其数量还在与日俱增。
孤儿基因的研究目前依然处于萌芽状态,我们对它们中的多数状况仍知之甚少。那些我们俨然熟知的孤儿基因,其实只不过是大杂烩而已。它们有些参与了对DNA的修复和组织,有些掌控着其他基因的活动。以“flightin”为代号的昆虫孤儿基因,旨在对肌翼蛋白进行编码,经过演化后可望助飞行一臂之力。芝加哥大学终身教授龙漫远和他的团队在2012年发表的研究报告中证实:有两个近期内得到演化的昆虫孤儿基因,帮助塑造了果蝇的觅食习性。
在珊瑚虫、水母和水螅虫中,孤儿基因可引导爆炸性刺细胞的发育,凭借这一精巧的结构发射充满毒素的胶囊,将捕获物击昏。在淡水水螅中,孤儿基因可引导有机物嘴部周围喂食触角的发育。而极地鳕鱼的孤儿抗冰冻基因,足以使它在冰封的北极圈存活下去。
说来也奇怪,孤儿基因常常是在睾丸和大脑里得到表达的。近年来,甚至还有人大胆地推断孤儿基因对人类大脑的演化作出了贡献。2011年,龙漫远和他的同事确认,人类、黑猩猩和猩猩中有198种孤儿基因,在前额叶皮层这个与高级认知能力息息相关的大脑区域中得到了表达,其中54个是人类所特有的。基因从演化角度来看是年轻的,出现尚不到2500万年,它们的到来似乎是和灵长目动物这个大脑区域的扩展同时发生的。“由此可见,这些新的基因同大脑进化有关。”龙漫远解释说。
持批评意见的人认为,多数基因不管是新是旧,都或多或少地参与了大脑的运作,而且那种联系不存在因果关系。但是,龙漫远援引最近的一例动物研究,给这种理论平添了几许可信性。作为人类孤儿基因之一,SRGAP2C即使在发育小鼠的神经元中得到表达,也决不会使动物的大脑容量增大。但是,它的确会鼓励神经细胞衍生出排列更为密集的树突棘,这种细微的突出物能让神经元同它们的“邻居”形成联络。他争辩称,拥有更多的联系就可望提高运算能力。所以,这些近期获得演化的人类基因可起到塑造人类大脑的作用。“我认为我们是低估了孤儿基因。”德国马克斯-普朗克进化生物研究所的遗传学家迪特哈德·陶茨感叹道。
从头演化
基因非得经由复制才能衍生,但这似乎远不是事实的真相。数年前,基因在酵母菌、稻米、小鼠和果蝇中“从头”形成的证据浮出了水面。之后,科学家又证明:人类有三个孤儿基因的确是从头形成的。
但是,它们又从何而来呢?2003年,陶茨和他的同事提出:孤儿基因是通过复制而形成的,但随后就会迅速演化,以至于将任何与原始基因的相似之处洗刷殆尽。他们的确握有似乎支持这一理念的证据。经过他们验证,果蝇孤儿基因的演化速度,要比不是孤儿基因的同类快3倍。
孤儿基因就这样被硬塞进一个旧框框内,仿佛基因非得经由复制才能衍生似的。不过,最新的研究结果表明,这一点只能解释少数孤儿基因的起源。所以,尽管过程显然是重要的,但远不是全部事实真相。“这种想法在当时看来是合乎情理的”,陶茨说,“因为两者择一的途径似乎是根本行不通的。”
两者择一的途径?唯一的其他可能性是:基因真的能从头开始演化,真的能从随机的数段非编码DNA开始演化。这种理念很久以来一直被认为是完全不靠谱的,因为从非编码的DNA到携带有用蛋白制品的基因,是一个跨度大得无法逾越的飞跃。但是,大自然没有读过教科书。数年前,基因在酵母菌、稻米、小鼠和果蝇中“从头”形成的证据浮出了水面。之后,爱尔兰都柏林大学的大卫·诺勒斯和奥伊夫·麦克莱萨证明:人类有3个孤儿基因的确是从头形成的。
他们的研究成果证明:DNA序列几乎跟好多其他灵长目动物中存在的基因相同,但都是非编码的。这意味着基因准是在人类与黑猩猩分道扬镳后的某个时段出现的。他们探明孤儿基因被转录到RNA中,然后在多个软组织中被转译成蛋白,虽然基因的功能至今未知。
2011年,还有一个研究团队对另外60种从头产生的人类孤儿基因作出了描述。麦克莱萨特认为这可能有点估计过高—她相信从头产生的基因合成是一种罕见的现象。
然而,也有不少研究人员开始认为,这种现象十分常见,可能有点出乎意料。由西班牙巴塞罗那市立医学研究基金会的马尔·阿尔巴和马卡瑞纳·托尔-利亚拉牵头对270种灵长目动物孤儿基因所展开的研究发现:其中只有四分之一可以用复制后的快速演化来解释,大约有60%似乎反倒是鲜活新生的。“从头演化显然是一股强大的力量”,陶茨说,“大部分孤儿基因通过从头演化而得到进化看来是可能的。”
但是,这怎么会可能呢?诺勒斯和麦克莱萨特证明:由他们发现的孤儿基因紧靠着现存的旧基因,还同它们形成轻微的交叠,所以孤儿基因理应可以向它们“借用”一下开关。同样,阿尔巴和托尔-利亚拉发现在270个灵长目动物孤儿基因中,有一半是从“转座因子”的基因中获得序列的。所谓“转座因子”,是指能在基因组里四处跳跃的遗传寄生物。今年早些时候发表的对人类基因组的编码研究也表明:我们的DNA中散布着数百万个潜在有用的开关短序列,而且单一的开关能和很多基因形成互动。
凡此种种迹象指向了一个事实:非编码的DNA要获取RNA进行拷贝所必需的开关是相对容易的。的确,编码研究发现多达80%的DNA至少会偶尔被拷贝到RNA中。有人据此争辩称,这个RNA是功能型的;但另有一种诠释认定,这类活动多半只是干扰,垃圾DNA照例会被转录到RNA中。
碰巧植入
大部分孤儿基因是找不到家族的,因为它们真的没有什么家族。构成它们的原生态DNA不是基因,却碰巧被深深地植入严格意义上“活生生”的基因之中。
如果这样的话,那么我们始终在不断加以实验的,基本上就是数千种潜在的新基因了,而且加州大学圣迭戈分校的安妮-鲁克桑德拉·卡尔弗尼斯已证明实际情况的确如此,至少酵母菌就提供了这样的例证。去年,她的团队对酵母菌基因组中10.8万个偏短未知的、但进行潜在的蛋白编码的序列作了分析。其中和细胞的蛋白制造工厂形成互动的有1000多个,由此表明它们正在被转变为蛋白。“这可能只是冰山一角而已。”卡尔弗尼斯说。
她的调查结果表明:酵母菌中的蛋白制造工厂不断在大量生产新的蛋白,同时容许它们接受“检验”。据她推测,一切复杂的有机物都是同样情况。卡尔弗尼斯认为,在非编码的DNA与完全成熟的基因之间存在一个完整的“原基因”连续体,它们大多为中性或有害的蛋白进行编码,所以不会加以选择,而且绝大部分的原基因迟早会回归非编码的DNA。但是,有些中性或甚至有所助益的原基因往往挥之不去,开始逐渐酝酿有益的突变。经过数百万年的自然选择,它们能够变成严格意义上的基因—孤儿就是这样诞生的。
所有这一切有助于解释孤儿基因何以常在睾丸中得到表达。在多数细胞中,DNA是密实紧凑的,这样可降低RNA被拷贝的概率。然而,在某些不成熟的精子细胞中,结构就比较开放,造成了原基因更易于被拷贝到RNA中。随着时间的推移,基因可能会在其他组织中得到表达,由此演化出新的功能来。
有关蛋白潜质的新发现,还使基因从头产生这一理念似乎真实可信多了。人们一度认为,蛋白必须经折叠后嵌入纤巧精致、具有3D形态的结构才能正常运作。但现在看来,很多蛋白就存在于固有的无序状态当中,一方面周旋在数千个可能迥然有异的形态之间,另一方面始终维系着完善的功能。人类蛋白约有一半至少携带一截很长的固有无序片段,同时有10%从头到尾保持着无序状态。
布鲁塞尔弗兰德斯生物技术研究所的彼得·托姆帕专事对固有无序蛋白的探索,他怀疑新的孤儿基因有可能对无序蛋白进行编码,因为它们比折叠蛋白更容易制作。无序蛋白常会在细胞信号和调节方面发挥作用。“如果孤儿基因被证明具有调控功能的话,我不会感到惊讶。”托姆帕宣称。
这一点也许有助于解释孤儿基因何以能非常迅速地变成基本要素的原因。2010年,龙漫远的团队利用RNA干预关闭了果蝇处于演化之中的新旧基因。结果发现,包括孤儿基因在内的新基因对于生命同样具有重要性的概率几乎和旧基因不相上下。“这一点同教科书是格格不入的,教科书上说,基因编码基本功能是古时候形成的。”龙漫远声称。
我们对于孤儿基因仍有很多东西要学习,但是我们现在开始着力追溯它们的祖先。看来大部分孤儿基因是找不到家族的,因为它们真的没有什么家族。构成它们源头的原生态DNA是可以追溯的,但它们作为基因则是破天荒的首创。从这个意义上说,“孤儿”这个术语可能有点用词不当。也许应该把它们重新命名为“皮诺曹”(童话故事《木偶奇遇记》中的主人公)基因—虽说不是基因,却经由自然选择碰巧被深深地植入严格意义上“活生生”的基因之中。
来源:转化医学网