在遗传学和生物化学中,测序是指确定无分支的生物聚合物的一级结构(有时被误称为一级序列)。测序结果使用一个符号化的线性描述,称为序列,它简洁地总结了被测序分子的大部分原子级结构的序列。
DNA测序是确定特定DNA片段的核苷酸顺序的过程。到目前为止,大多数的DNA测序都是使用弗雷德里克·桑格开发的链终止方法进行的。这种技术利用修饰的核苷酸底物通过序列特异性终止DNA的合成反应。然而,新的测序技术,如焦磷酸测序正在获得越来越多的测序市场份额。焦磷酸测序比桑格DNA测序产生了更多的基因组数据。焦磷酸测序已经实现了快速基因组测序。用这种技术可以在一次运行中对细菌基因组进行多次测序。这项技术最近也被用于詹姆斯·沃森的基因组测序。[1]
DNA序列编码了生物生存和繁殖所必需的信息。因此,确定DNA序列在生物体为何及如何生存的基础研究方面,以及应用学科方面都非常有用。由于 DNA对生物非常关键,DNA序列的知识在生物学研究的任何领域都是有用的。例如,在医学上,它可以用来识别、诊断以及开发遗传疾病的潜在治疗方法。同样,对病原体的研究可能会发现针对传染性疾病的新疗法。生物技术是一门新兴学科,具有开发许多有用产品和服务项目的潜力。
卡尔森曲线是经济学家 [2]创造的一个术语,用来描述等同于生物技术领域的摩尔定律,它是以作者罗布·卡尔森(Rob Carlson)的名字命名的。[3]卡尔森准确地预测了DNA测序技术的倍增时间(以成本和性能来衡量)将会至少和摩尔定律一样快。[4]卡尔森曲线说明了各种技术在成本上的快速降低(在某些情况下是超指数级别的)和性能上的提高,这些技术包括DNA测序、DNA合成以及用于蛋白质表达和确定蛋白质结构的一系列的物理和计算工具。
在链终止子测序(Sanger测序)中,通过使用与模板互补的短寡核苷酸“引物”在DNA模板上特定位点开始延伸。寡核苷酸引物用一种复制DNA的酶——DNA聚合酶来延伸。引物和DNA聚合酶包括四个脱氧核苷酸碱基(DNA构件),以及低浓度的链终止核苷酸(最常见的是双脱氧核苷酸)。通过DNA聚合酶对链终止核苷酸的有限结合产生一系列相关的DNA片段,这些片段仅在使用特定核苷酸的位置终止。然后,这些片段通过电泳在平板聚丙烯酰胺凝胶中,或者现在更常见的是在填充有粘性聚合物的窄玻璃管(毛细管)中进行尺寸分离。
引物标记的另一种方法是标记终止子,通常称为“染料终止子测序”。这种方法的主要优点是完整的测序集可以在一个反应中完成,而不是标记引物法所需的四个反应。这是通过用单独的荧光染料标记每个双脱氧核苷酸链终止子来实现的,该荧光染料以不同的波长发出荧光。这种方法比染料引物方法更容易和更快,但是由于在加入大型染料链终止子时存在与模板相关的差异,可能会产生更不均匀的数据峰(不同的高度)。随着新的酶和染料的引入,这一问题已经大大减少,从而使掺入可变性最小化。这种方法现在被用于绝大多数测序反应,因为它既简单又便宜。其主要原因是引物不必单独标记(这对于单次使用的定制引物来说可能是一笔很大的费用),尽管这与经常使用的“通用”引物不太相关。由于Illumina、454、ABI、Helicos和Dover等公司的第二代和第三代系统的成本效益不断提高,这种情况正在迅速改变。
焦磷酸测序是由波尔·尼伦(Pål Nyrén)和穆斯塔法·罗纳吉(Mostafa Ronaghi)开发的,已通过Biotage(低通量测序)和454Life Sciences(高通量测序)实现商业化。后一种平台使用一台机器在7小时的运行时间内完成大约100 mb的序列(现在可以达到400 mb)。在基于阵列的方法(由454 Life Sciences公司商业化)中,单链DNA被退火成珠子并通过EmPCR(油包水聚合酶链式反应)扩增。然后将这些与脱氧核糖核酸结合的珠子和在三磷酸腺苷存在下产生光的酶一起放入光纤芯片上的孔中。当游离核苷酸被冲洗到芯片上时,当核苷酸与其互补碱基对结合时,就会产生三磷酸腺苷,从而产生光。添加一个(或多个)核苷酸会导致产生光信号的反应,该光信号由仪器中的电荷耦合器件摄像机记录。信号强度与单个核苷酸流中掺入的核苷酸数量成比例,例如均聚物的延伸。 [1]
尽管上述方法描述了各种测序方法,但是当基因组的大部分被测序时,采用了独立的相关术语。开发了几个平台来进行外显子组测序(编码基因的所有染色体上所有DNA的子集)或全基因组测序(人类所有细胞核DNA的测序)。
RNA在细胞中的稳定性较差,在实验中也更容易受到核酸酶的攻击。因为RNA是由DNA转录产生的,所以信息已经存在于细胞的DNA中。然而,有时也需要对RNA分子进行测序。虽然DNA测序给出了生物体的遗传图谱,但RNA测序却反映了细胞中活跃表达的序列。为了给RNA测序,通常的方法是首先对从样品中提取的RNA进行逆转录进而产生cDNA片段。然后可以如上所述方法进行排序。细胞中表达的大部分RNA是核糖体RNA或小RNA,不利于细胞翻译,但通常不是研究的焦点。然而,包括通常是研究的热点的丰富的信使RNA在内,这些都可以在体外除去。源自外显子的这些信使RNA将被翻译成支持特定细胞功能的蛋白质。因此,表达谱反应了细胞活性,特别是在疾病、细胞行为、对试剂或刺激的反应研究中。真核生物的RNA分子不一定与它们的DNA模板共线,因为内含子被切除了。这使得将读取的序列映射回基因组并由此识别它们的来源具有一定的复杂性。
进行蛋白质测序的方法包括:
如果编码蛋白质的基因是已知的,那么目前测序和推断蛋白质序列要容易得多。通过上述方法之一确定蛋白质氨基酸序列的一部分(通常是一端)可能足以鉴定携带该基因的克隆。
^Wheeler, David A.; Srinivasan, Maithreyan; Egholm, Michael; Shen, Yufeng; Chen, Lei; McGuire, Amy; He, Wen; Chen, Yi-Ju; Makhijani, Vinod (2008-04-17). "The complete genome of an individual by massively parallel DNA sequencing". Nature (in 英语). 452 (7189): 872–876. doi:10.1038/nature06884. ISSN 0028-0836. PMID 18421352..
^Life 2.0. (2006, August 31). The Economist.
^Carlson, Robert H. Biology Is Technology: The Promise, Peril, and New Business of Engineering Life. Cambridge, MA: Harvard UP, 2010. Print.
^Carlson, Robert (2003). "The Pace and Proliferation of Biological Technologies". Biosecurity and Bioterrorism: Biodefense Strategy, Practice, and Science. 1 (3): 203–214. doi:10.1089/153871303769201851..
^A practical guide to structural analysis of carbohydrates.
暂无