【转】吴家睿：“生命之书”的解读|Jerkwin

2014-08-11 11:11:10

　　人类的天性总是追求秩序，拒绝混乱。DNA双螺旋的发现，就是人类建立秩序的一个成功典范。根据它，人们把自然界的万千生命形式，统统归结为用四种化学小分子作为“字母”写成的作品。根据它，最近50年来对生命的研究大致上可以被划分为两种任务：阅读“生命之书”的内容和寻找“生命之书”的创作规则。

阅读生命

　　DNA双螺旋的发现确立了两条解读生命的规则。第一条是对“文字”的界定，即生命的遗传信息全部由称为碱基的四种化学小分子（A、T、G、C）记载。第二条是阅读的方式，即遗传信息的传递遵循碱基互补的规则：碱基A只能与碱基T匹配，碱基G只能与碱基C匹配。因此，根据一条链的碱基序列就可以确定另一条互补链的碱基序列。

　　DNA双螺旋发现最重要的意义，就是对基因本质的揭示。基因作为遗传的核心内容，被确定为一段具有特定碱基序列的DNA片段，如人类基因的平均长度为2.7万个碱基。在这段序列上的每3个相连的碱基，将决定一种氨基酸（通常把这种三联体碱基称为遗传密码），而整段碱基序列则决定一种蛋白质的全部氨基酸序列。也就是说，一个基因被用来制造一种蛋白质。自DNA双螺旋发现以后的近40年时间内，生命科学工作者的主要任务就是发现基因并研究其功能。换句话说，研究者的主要工作通常是找出“生命之书”中一个个句子，并理解这些句子的含义。1990年代人类基因组计划的实施，把人们对生命的理解引到了一个新的境界：阅读完整的“生命之书”——基因组。

　　一般说来，可以把后基因组时代对“生命之书”的阅读分为三个层次。第一个层次是对生物个体基因组的阅读。一个基因组如同一本书，记载着生物体内的全部遗传信息。目前已知的最小生命体（一种古细菌）的基因组为50万对碱基，而人类基因组则拥有大约32亿对碱基。研究表明，在绝大多数生物体的基因组内，基因只是基因组的一小部分。例如在人类基因组内，基因的总数大约是3～4万个，其全部碱基序列的总和仅占基因组序列的1.5%左右。也就是说，在书写我们人类的这部书里，有意义的句子不到全书文字的2%。

　　那么，其余98%的“文字”是什么内容呢？一个显著的部分是重复的碱基序列，在人类基因组内这些重复序列占了约44%；另一大类就是不编码蛋白质的单一序列，在人类基因组内为54%。过去把这些与基因无关的序列称为“垃圾”（junk）序列。我们的“生命之书”真的是废话连篇吗？现在的研究揭示，这些序列在基因组内扮演着很重要的功能。例如在人的染色体末端，存在一段6个碱基（TTAGGG）的重复序列，它重复了大约250～1500次。这段重复序列对于染色体的稳定以及细胞衰老和癌变的发生，都有着重要的影响。对非基因的DNA序列的认识才刚刚开始，如何阅读这些与制造蛋白质无关的序列，仍然是科学家所面临的巨大挑战。

　　基因组还有另一种“读法”，即研究碱基G和C在整个基因组内的含量和分布。例如在人类基因组内，GC的含量大约为40%；这些GC并不是平均分布在基因组内，在某些DNA片段上其含量可高达60%以上，而在另一些区域则只有33%左右。这种GC含量的差别，在基因表达的调控和基因突变上都可能扮演着重要的角色。例如，在基因的末端通常存在一些富含双核苷酸“CG”的区域，称为“CpG岛”（CpG island）。在人类基因组内，存在有近3万个CpG岛；在大多数染色体上，平均每100万碱基含有5～15个CpG岛，其中有1.8万多个CpG岛的GC含量为60%～70%。通常，这些CpG岛不仅是基因的一种标志，而且还参与基因表达的调控和影响染色质的结构。

　　第二个层次的阅读，是对同一物种不同个体的基因组之间的比较。尽管个体与个体之间的基因组序列绝大部分是一致的，但仍有少量的差异存在，就好比同一文本的不同版本。同一物种不同个体的基因组差异决定着个体差异。人与人之间基因组序列的99.9%都是一模一样的，只有千分之一左右的序列有所不同。这些差异的主要形态，是一种单碱基差异（单核苷酸多态性，SNP）。人类基因组内有500多万个SNP，平均每600对碱基有一个；目前已经有200多万个SNP被测定。在研究SNP的基础上，科学家又进一步提出了“单型”（haplotype）的概念，认为染色体DNA是由一些基本的“砖块”——单型——所构成的。单型大约有5000～20000个碱基对，具有特定的SNP变异方式。美国科学家不久前对人类21号染色体进行了分析，认为其中80%的DNA序列是由三个单型为结构单元搭建而成的[1]。美国国立卫生研究院在2002年10月启动了一项“单型作图”（haplotype map）计划，要在3年内测定不同人种的单型图谱。人们已经认识到，正是这些微小的基因组差异，导致了人与人之间对环境、疾病和药物等的不同反应。因此，有必要把不同个体的基因组全序列都好好读读。随着DNA测序技术的发展，这样的目标有可能实现。有人预测，在不远的将来，可能会产生一种分析单个DNA分子的测序技术。到那时，一个人的基因组全序列可能在一天内就被测出，而费用不会超过1万美元。

　　第三个层次的阅读涉及不同物种基因组的比较。根据进化论的观点，高级形式的生命是从低级生命演化而来。显然，其演化的物质基础就是基因组。随着基因组研究的迅速开展，对不同物种的基因组进行比较已成为可能。这好比一种历史性的阅读，我们既可以阅读远古的文本，还可以阅读近代的作品，以及现代的新作。现在已有上百种这样的“生命之书”可以被阅读，其中包括100多种细菌，有简单的真核单细胞生物——酵母，有水稻、拟南芥等植物，也有线虫、果蝇、小鼠等动物，还有我们人类。小鼠作为一种动物模型，一直被广泛地用于研究人类的生理和病理现象。2002年发表的小鼠全基因组图谱表明，小鼠基因组的确与人类基因组很接近，大于90%的基因组区域在两个物种中都能匹配；相同的核苷酸序列大约是40%；基因组内的基因数目都是2～3万；在这些基因中，小鼠或人特有的基因（即完全没有同源性的基因）只占基因总数的1% [2]。

　　基因组的比较还揭露这样一个有趣的事实：在人类基因组内存在200多个与细菌基因非常一致的基因，而这些基因在无脊椎动物的基因组内均未被发现。这一现象说明，在进化过程中，基因可以在不同进化水平上的物种中平行传递，而不像过去的“进化树”所表现的那样只能垂直进行。总之，不同物种的基因组之间的比较，使我们可以把问题“什么决定了人类”转化为问题“人类与其他物种的差别是什么”。

创作生命

　　DNA双螺旋的发现导致了遗传密码的破译和遗传信息流动的中心法则的确立。在此基础上，人们初步掌握了改造或修饰基因的方法，并在1970年代发展出了基因工程。但是，科学家至今还无法创造出一种全新的基因，因为他们尚不清楚自然界是如何“创作”基因的。由于人类基因组计划和基因组研究的进展，人们已经开始对大自然或“造物主”创作“生命之书”的规律有了一些初步的认识。

　　人类在进行写作时，可以采用的要素有三种：字母、词、句子，其中词是基本写作单元。就基因组而言，碱基是“字母”，而基因则是“句子”。那么，在基因组内，有没有“词”的存在？对基因的产物——蛋白质序列的分析揭示，蛋白质内部有一些结构固定的亚单位，称为模块（domain）。因此，蛋白质的构成遵循着一种类似于搭积木的方式，由数个特定的模块构造而成。尽管生物界存在数量巨大的蛋白质种类，但是模块的种类估计不会超过2万个。可以认为，编码模块的DNA序列就是基因组内的“词”。

　　对人类基因组内所有基因可能产生的蛋白质的预测表明，在总数为1278个的蛋白质家族中，仅有94个蛋白质家族是脊椎动物特有的，其余的蛋白质家族都可以在其他低等生物中找到类似物[3]。人类的蛋白质与线虫或果蝇的蛋白质的最大不同，是蛋白质结构的复杂性。在人类的蛋白质的构成中，采用了更多的模块或者是新的连接模块的方式。在生命的演化过程中，大自然倾向于采用现存的积木搭建新的建筑。也就是说，大自然也是以“描写”模块的“单词”作为创作“生命之书”的基本单位。

　　文人在进行创作时总是遵循一些特定的技巧，大自然亦然。从高等生物基因组的创作来看，大致有三种技巧。首先是扩增（duplication），即一段DNA序列通过自我复制增加其拷贝数。第一类扩增称为串联扩增（tandam duplication），即一段序列在局部区域内的多次复制。第二类扩增是基因扩增（gene duplication）。在人类基因组内已鉴定出近3000个这样的扩增；有的基因只是增加了几份拷贝，而有的基因则扩增了上千个拷贝。第三类扩增是大片段扩增（segmental duplication），指基因组的某个完整的大片段向另一个区域的扩增性转移。例如人的第2号染色体上有一段含有33个基因的片段，扩增后转移到第14号染色体上。这些扩增的片段不仅增加了基因组的碱基数量，而且常常成为形成新基因的原材料。

　　另一种“创作”基因组的技巧是移动。经典的遗传学认为基因在染色体上的位置是固定不变的，但后来的研究却发现，许多基因或DNA片段可以在染色体上和染色体间来回移动。这些可以移动的片段被称为转座子（transposon）。此外，载有基因信息的信使RNA（mRNA）可以通过逆向转录的方式进入染色体，这类片段被称为反转座子（retrotransposon）。人类基因组序列分析表明，大约有50%的序列属于转座子或反转座子。转座“技巧”的应用，使基因组的结构变得很有弹性并更为复杂。

　　上述这两类技巧在人类的文字创作中都可以见到，但第三类技巧则是基因组所特有的——剪接（splicing）。早期的遗传学家认为基因应该是连续性的，好比一句话必须是完整的。但后来的研究却发现了非连续性的基因，即在一个编码蛋白质的基因序列之间，插有一些非编码的序列；就如同把一个完整的句子拆开，加入一些无意义的文字。因此在制造蛋白质之前，需要把无意义的序列切除，拼接出一个完整的“句子”。这个过程被称为“剪接”。人们把基因内部与编码蛋白质相关的序列称为外显子（exon），无关的序列称为内含子（intron）。

　　一般说来，在细菌一类低等生物里基因都是连续性的。生命形式越高等，不连续性的基因就越多。如在芽殖酵母里，只有4%的基因拥有内含子。而在小鼠或人的基因组内，绝大部分基因都是不连续的。据最新统计，人的编码蛋白质的转录链平均含有8.7个外显子，小鼠的转录链则平均含有8.4个外显子。如果把外显子和内含子进行不同方式的剪接，一个基因就能制造出多个蛋白质。举一个极端的例子，在小鼠的基因组内有一个称为DSCAM的基因，它有6.1万个碱基，通过剪接可以形成含有24个外显子，长为7800个碱基的mRNA。但这个基因的外显子有许多不同的剪接方式，如果把所有可能的剪接方式都考虑进去，这个基因能够产生的mRNA和蛋白质的种类，可以超过3.8万种（小鼠基因组的全部基因数也不过2.2万左右）[4]！大自然采用这样的创作手法，以少量的句子（基因）拼写出了大量的产品（蛋白质）。

　　从大自然的创作方式来看，从低等生物到高等生物的基因组的“创作”过程，与人类的文字创作历史有某种惊人的相似之处。人类文明的初期，文字和表达方式是极其有限的。想一想中国的《春秋》、《左传》，那可是一字值千金。那时的作品都非常精练，无一个废字。低级生命的基因组显然也符合这种“古文”形式，不编码蛋白质的DNA序列非常少。以2002年发表的链霉菌（Streptomyces coelicolor）基因组为例，其全长DNA序列是860多万个碱基对，而编码蛋白质的基因序列占基因组的88.9%。随着人类文明的发展，语言和文字逐渐变得丰富多彩，表达也开始复杂和冗长，如中国晚清时代的白话小说。同样，在比原核生物高级的真核生物的基因组内，也逐渐增加了非编码的DNA序列，如最简单的真核生物——芽殖酵母，其基因组拥有1300万个碱基对，但编码序列只是基因组的72%。

　　现代人的创作更是表现为对文字资源的滥用。爱尔兰作家乔伊斯（J. Joyce）的长篇小说《尤利西斯》就是一个典型，充满了许多没有意义的文字，如“一、一、一、一、一、一”，或“喀啦啊啊啊啊啊啊”。人类基因组正如《尤利西斯》一样，绝大部分序列与编码蛋白质无关。不过，没有意义的文字不等于没有作用，不编码蛋白质的DNA序列也不等于没有功能。如果把这些文字删去，就不再是《尤利西斯》；同样，把这些序列清除了，也就不再是人类基因组。因此，大自然在创作不同物种的基因组时，表现出与人类写作史相同的规律，总是由少到多，先简后繁。

　　在DNA双螺旋发现的年代，人们对于基因的性质还所知甚少，更谈不上去解读“生命之书”。而在50年后的今天，研究者不仅破译了载有我们人类全部遗传信息的基因组，而且初步认识了基因组的“创作”方式。到纪念DNA双螺旋发现100周年时，也许科学家们能够获得“造物主”的能力，写出一本全新的“生命之书”。

参考文献

Patil N, et al. Science, 2001, 294:1719
Waterston R H, et al. Nature, 2002, 420:520
Baltimore D. Nature, 2001, 409:814
Black D L. Cell, 2000, 103:367

【转】吴家睿：“生命之书”的解读

2014-08-11 11:11:10

阅 读 生 命

创 作 生 命

阅读生命

创作生命