基因家族是一系列相似基因的集合,由单一原始基因复制而成,通常具有相似的生化功能。人类血红蛋白的亚单位基因就是这样的一个家族。这十个基因位于不同染色体上的两个簇中,称为α-珠蛋白和β-珠蛋白基因簇。这两个基因簇被认为是大约5亿年前一个前体基因复制的结果。[1]
根据共有的核苷酸或蛋白质序列,基因被分成不同的家族。系统发育树的构建可以作为划分家族的一个更严格的测试指标。外显子在编码序列中的位置可以用来推断共同的祖先。因此了解基因编码的蛋白质序列,可以为研究人员提供更多找到蛋白质序列之间相似性的方法,从而获得更多DNA序列之间相似性或差异性的信息。
如果是同一个基因家族基因编码的蛋白质,那么“蛋白质家族”经常以类似于“基因家族”的方式使用。
基因家族沿着特定谱系的扩张或收缩可能是偶然的,也可能是自然选择的结果。[2]在实践中,区分这两种情况往往很困难。最近的研究结合了统计模型和算法技术来检测受自然选择影响的基因家族。[3]
HUGO基因命名委员会(HGNC) 为一个基因家族的成员创建命名方案,使用“茎”(或“根”)符号,并使用分级编号系统来区分单个成员。[4][5] 例如,对于过氧化物酶家族,PRDX是根符号,家族成员分别是PRDX1、PRDX2、PRDX3、PRDX4、PRDX5和PRDX6。
基因组结构的一个层次是将基因分成几个基因家族。[6][7] 基因家族是共享一个共同祖先的一组相关基因。基因家族的成员可以是旁系或直系亲属。旁系同源基因是同一物种中具有相似序列的基因,而直系同源基因是不同物种中具有相似序列的基因。基因家族在大小、序列多样性和排列上差异很大。根据家族中基因的多样性和功能,家族可以分为多基因家族或超基因家族。[6][8]
多基因家族通常由具有相似序列和功能的成员组成,尽管在序列或功能上有高度的差异,但这不会导致其从一个基因家族中移除。家族中的单个基因可以紧密排列在同一条染色体上,也可以分散在基因组的不同染色体上。由于它们序列的相似性和功能的重叠,家族中的单个基因通常共享调控元件。[6][8] 在某些情况下,基因成员具有相同(或几乎相同)的序列。这样的家族能根据需求在短时间内大量表达基因产物。其他家族允许在不同的细胞类型或生物体发育的不同阶段表达类似且特定的产物。[6]
超基因家族比单个多基因家族大得多。超基因家族包含数百个基因,包括多个多基因家族以及单个基因成员。大量的成员使得超家族被广泛分散,一些基因聚集在一起,一些基因分散得很远。这些基因在序列和功能上各不相同,表现出不同的表达水平和独立的调控机制。[6][8]
一些基因家族也包含假基因,即与已建立的基因序列非常相似但没有功能的基因序列。[9] 假基因存在多种不同的类型。未经加工的假基因是随着时间的推移获得突变而变得无功能的基因。加工过的假基因是通过逆转录转座在基因组中移动后失去功能的基因。[8][9] 那些在基因家族起源时就已分离出来的假基因,被称为孤儿基因。[6]
基因家族起源于祖先基因的多重复制,随后发生突变和分化。[6] 复制可以发生在一个谱系中(例如,人类可能有一个基因的两个拷贝,在黑猩猩身上只发现一个),或者发生在物种形成时。例如,人类和黑猩猩祖先中的一个基因现在出现在两个物种中,可以被认为是通过物种形成“复制”的。由于物种形成的复制,一个基因家族可能包括15个基因,15个不同物种各有一个拷贝。
在基因家族的形成中,存在四种水平的复制:1)外显子复制和改组,2)全基因复制,3)多基因家族复制,和4)全基因组复制。外显子复制和改组会产生变异和新基因。然后基因被复制形成多基因家族,多基因家族复制形成跨越多条染色体的超基因家族。全基因组复制使每个基因和基因家族的拷贝数翻了一番。[6] 全基因组复制或多倍化可以是同源多倍化或异源多倍化。同源多倍体化是同一基因组的复制,异源多倍体化是来自不同物种的两个密切相关的基因组或杂交基因组的复制。[8]
复制主要通过生殖细胞减数分裂中不均匀的交叉事件发生。当两条染色体错配时,交叉——等位基因的交换——导致一条染色体的基因数目扩大或增加,而另一条染色体的基因数目收缩或减少。一个基因簇的扩展就是基因的复制,进而导致产生更大的基因家族。[6][8]
一个多基因家族或超家族中的多基因家族的基因成员存在于不同的染色体上,这是由于这些基因在祖先基因复制后的重新定位。转座子在基因运动中发挥作用。转座子在其5’和3’端被反向重复识别。当两个转座子在染色体的同一区域足够接近时,它们可以形成一个复合转座子。蛋白质转座酶识别最外面的反向重复,切割脱氧核糖核酸片段。当复合转座子跳到基因组的新区域时,两个转座子之间的任何基因都会被重新定位。[6]
逆转录是基因运动的另一种方法。基因的信使RNA转录本被反转录或复制回脱氧核糖核酸。这种新的基因拷贝整合到基因组的另一部分,导致基因家族成员分散。[8]
一种特殊类型的多基因家族与基因家族和基因家族成员的迁移有关。LINE (长散在重复序列)和SINE (短散在重复序列)家族是遍布整个基因组的高度重复的脱氧核糖核酸序列。LINEs包含一个编码逆转录酶蛋白的序列。这种蛋白质参加将LINEs和SINEs的核糖核酸转录本复制回脱氧核糖核酸,并将它们整合到基因组的不同区域。这将使LINE和SINE家族的增长永久化。由于这些元素的高度重复性,当LINEs 和 SINEs靠在一起时,也会引发不平等的交叉事件,导致单基因复制和基因家族的形成。[6][8]
非同义突变导致氨基酸替换,增加了重复的基因拷贝。复制引起同一基因产生多个拷贝,在允许突变的情况下提供一定程度的冗余。有了基因的一个功能拷贝,其他拷贝就能获得突变,而不会对生物体造成极其有害的影响。突变允许重复的基因获得新的或不同的功能。[8]
一些多基因家族极其同源,每个基因成员个体共享相同或几乎相同的序列。基因家族保持高度同源性的过程是协同进化。协同进化是通过不同交叉事件的重复循环和基因转移与转化的重复循环发生的。不平等的杂交导致基因家族的扩张和收缩。基因家族有一个自然选择作用下的最佳大小范围。收缩会删除不同的基因拷贝,防止基因家族变得过大。扩张取代了丢失的基因拷贝,防止基因家族变得太小。基因转移和转换的重复循环越来越使基因家族成员更加相似。[6]
在基因转移过程中,等位基因转换是有偏向的。基因家族中等位基因突变向同质性扩散与群体中优势等位基因向固定性扩散是相同的过程。在某些情况下,基因转换也有助于产生遗传变异。[10]
基因家族是基因组信息存储体系的一部分,在多细胞生物的进化和多样性中起着重要作用。基因家族是信息和遗传变异的大单位。[6] 随着进化时间的推移,基因家族不断扩大和收缩,新的基因家族正在形成,一些基因家族正在消失。在几个进化谱系中,基因的获得速度与丢失速度相对是一样的。当自然选择倾向于额外的基因拷贝时,基因家族发生适应性扩张。当环境压力作用于一个物种时,情况就是这样。基因扩增在细菌中更常见,这是一个可逆的过程。基因家族的适应性收缩通常是由功能突变丢失的积累造成的。过早停止基因转录的无意义突变在人群中是确定会导致基因丢失。当环境的变化使基因变得多余时,这个过程就会发生。[7]
新的基因家族源自孤儿基因(分离的假基因)。这些分离的基因以不同的方式出现。一个基因副本积累了足够多的突变,这些突变具有足够的发散性,不再被认为是原始基因家族的一部分,新基因水平转移到基因组中,或者新基因从非编码序列中重新产生。然后,这些孤儿基因将经历复制、重新定位和分化的过程,形成一个家族。当一个基因的丢失导致整个基因家族的丢失时,基因家族就会毁灭。基因的持续丢失最终导致基因家族的灭绝。基因丢失可能是基因缺失或功能完全丧失,进而成为假基因。[7]
^Nussbaum, Robert L.; McInnes, Roderick R.; Willard, Huntington F. (2016). Thompson & Thompson Genetics in Medicine (8th ed.). Philadelphia, PA: Elsevier. p. 25. ISBN 978-1-4377-0696-3..
^Hartl, D.L. and Clark A.G. 2007. Principles of population genetics. Chapter 7, page 372..
^Demuth, Jeffery P.; Bie, Tijl De; Stajich, Jason E.; Cristianini, Nello; Hahn, Matthew W.; Borevitz, Justin (20 December 2006). "The Evolution of Mammalian Gene Families". PLoS ONE. 1 (1): e85. doi:10.1371/journal.pone.0000085. PMC 1762380. PMID 17183716..
^Daugherty, LC; Seal, RL; Wright, MW; Bruford, EA (Jul 5, 2012). "Gene family matters: expanding the HGNC resource". Human Genomics. 6 (1): 4. doi:10.1186/1479-7364-6-4. PMC 3437568. PMID 23245209..
^HGNC, Gene families help, retrieved 2015-10-13..
^al.], Leland H. Hartwell ... [et (2011). Genetics : from genes to genomes (4th ed.). New York: McGraw-Hill. ISBN 007352526X..
^Demuth, JP; Hahn, MW (January 2009). "The life and death of gene families". BioEssays. 31 (1): 29–39. doi:10.1002/bies.080085. PMID 19153999..
^Ohta, Tomoka (2008). "Gene families: multigene families and superfamilies". eLS. doi:10.1038/npg.els.0005126..
^al, Robert L Nussbaum ... et (2015). Genetics in Medicine (8 ed.). Philadelphia: Elsevier. ISBN 9781437706963..
^Ohta, T (30 September 2010). "Gene conversion and evolution of gene families: an overview". Genes. 1 (3): 349–56. doi:10.3390/genes1030349. PMC 3966226. PMID 24710091..
暂无