基因本体(GO)是一项重要的生物信息学倡议,旨在统一所有物种的基因和基因产物特性的描述。[1] 更具体地说,该项目旨在:
1、保持和发展其基因和基因产物特性的控制字集;
2、注释基因和基因产物,吸收和传播注释数据;
3、提供工具,便于访问项目提供的数据的所有方面,并能够使用GO(例如通过富集分析)对实验数据进行功能性解释。[2][3]
GO是一项更大的分类结果的一部分,即开放式生物医学本体论(OBO)的一部分。[4]
尽管基因命名法本身旨在保持和发展基因和基因产物的控制字集,但基因本体通过使用标记语言使数据(基因、基因产物及其所有特性的数据)机器可读,并以一种在所有物种中统一的方式来实现(而基因命名规则因生物分类而异)。
从实际的角度来看,本体是对我们所知道的事物的一种描述。“本体”由可检测或可直接观察的事物的描述以及这些事物之间的关系组成。生物学和相关领域没有通用的标准术语,术语的用法可能特定于某个物种、研究领域甚至特定的研究群体,这使得数据的交流和共享更加困难。基因本体项目提供了描述基因产物特性的已定义语义的本体,本体涵盖三个领域:
本体中的每个GO术语都有一个语义名称,可以是一个单词或一串单词、一个独特的字母数字标识符、有引述来源的定义,和指示其所属域的命名空间。语义也可能有同义词,语义的同义词被归类为与语义名称完全等同、更宽、更窄或相关;引用其他数据库中的等效概念;以及对语义含义或用法的评论。GO本体被构造成一个有向无环图,每个语义都定义了与同一个领域中的一个或多个其他语义的关系,有时还定义了与其他领域语义的关系。GO词汇设计为物种中性,包括适用于原核生物和真核生物、单细胞和多细胞生物的语义。
GO系统不是静态的,研究和注释团体的成员以及直接参与了GO项目的人对GO系统的增加、更正和修改提出了建议并征求了意见。[5] 例如,注释者可以请求一个特定语义来表示代谢途径,或者可以在团体专家的帮助下修改本体的一部分[6]。被建议的编辑文本由本体修改器审查,合适后就能成功被录用。
GO本体文件可以从GO网站[7] 以多种格式免费获得,或者可以使用GO浏览器——AmiGO在线访问。基因本体项目还提供了其语义到其他分类系统的可下载映射。
数据来源:[8]
基因组注释是捕获基因产物数据的实践,GO注释使用GO本体中的语义来实现。GO联合会的成员在GO网站上提交他们的注释以便整合和传播,在GO网站上他们可以直接下载或使用AmiGO在线查看。除了基因产物标识符和相关的GO语义之外,GO注释还有以下数据:用于进行注释的引用(例如期刊文章);表示注释所基于的证据类型的证据代码;注释的日期和创建者。
证据代码来自包含手动和自动注释方法的一组代码控制字集。例如,可追踪作者声明(TAS)意味着管理者已经阅读了一篇已发表的科学论文,并且该注释的元数据带有对该论文的引用;从序列相似性推断(ISS)意味着管理者已经审查了序列相似性搜索的输出,并验证了其生物学意义。来自自动化过程的注释(例如,使用另一个注释字集创建的重新映射注释)被赋予从电子注释推断(IEA)的代码。截至2010年4月1日,98%以上的GO注释是通过计算推断的,而不是人为推断的。[9]由于这些注释没有经过人员检查,GO联合会认为它们不太可靠,其在AmiGO的在线数据中只包括一个子集。完整的注释数据集可以从GO网站下载。为了支持注释的开发,GO联合会为新的开发者群体提供学习营地和导师。
最近,许多机器学习算法已经被设计并实现基因本体注释的预测。[10][11]
数据来源:[12]
有大量可用的在线工具和下载工具[13] 可以使用GO项目提供的数据。这些软件的绝大多数都来自第三方;GO联合会开发和支持两种工具,AmiGO和OBO-Edit。
AmiGO[14][15] 是一个基于网络的应用程序,允许用户查询、浏览和可视化本体和基因产物的注释数据。它还有一个BLAST工具[15] (此工具允许分析更大的数据集)[16][17] ,以及一个直接查询GO数据库的界面。[18]
AmiGO可以在GO网站上在线使用,以访问GO联合会提供的数据,也可以在任何使用GO数据库架构的数据库中下载并安装以供本地使用[19]。它是免费的开源软件,可以作为go-dev软件发行版的一部分。[20]
OBO-Edit[21] 是一个开源、独立于平台的本体修改器,由基因本体联合会开发和维护。它在Java中实现,并使用面向图形的方法来显示和编辑本体。OBO-Edit包括一个全面的搜索和过滤界面,可以选择呈现术语子集,使它们在视觉上不同;用户界面也可以根据用户偏好定制。OBO-Edit还有一个推理器,可以根据现有的关系和它们的属性推断出没有明确说明的联系。虽然它是为生物医学本体开发的,但是OBO-Edit可以用来查看、搜索和编辑任何本体。它可以免费下载。[20]
基因本体联合会(Gene Ontology Consortium)是积极参与基因本体项目的一组生物数据库和研究团体。[22] 这包括许多模式生物数据库和多物种蛋白质数据库、软件开发小组和专门的编辑部。
基因本体最初是在1998年由一群研究三种模式生物基因组的研究人员构建的:黑腹果蝇(果蝇)、小家鼠(小鼠)和酿酒酵母(啤酒酵母或面包酵母)。[23] 许多其他模式生物数据库加入了基因本体联合会,不仅贡献了注释数据,还有助于开发用于查看和应用数据的本体和工具。迄今为止,植物、动物和微生物领域的大部分主要数据库都为这个项目做出了贡献。截止2008年1月,GO包含超过24500个广泛适用于多种生物有机体的语义。关于GO的开发和使用有着大量的文献,GO已经成为生物信息学库中的一个标准工具。它们的目标有三个方面:建立基因本体,为基因/基因产物分配本体,为前两个对象开发软件和数据库。
利用类的形式、域无关属性(元属性)对基因本体的一些分析也开始出现。例如,可以看到对生物本体论的本体论分析。[24]
^The Gene Ontology Consortium (January 2008). "The Gene Ontology project in 2008". Nucleic Acids Research. 36 (Database issue): D440–4. doi:10.1093/nar/gkm883. PMC 2238979. PMID 17984083..
^Dessimoz, Christophe; Škunca, Nives, eds. (2017). The Gene Ontology Handbook. 1446. doi:10.1007/978-1-4939-3743-1. ISBN 9781493937431. ISSN 1064-3745..
^Gaudet, Pascale; Škunca, Nives; Hu, James C.; Dessimoz, Christophe (2017). "Primer on the Gene Ontology". 1446: 25–37. doi:10.1007/978-1-4939-3743-1_3. ISSN 1064-3745..
^Smith B, Ashburner M, Rosse C, Bard J, Bug W, Ceusters W, Goldberg LJ, Eilbeck K, Ireland A, Mungall CJ, Leontis N, Rocca-Serra P, Ruttenberg A, Sansone SA, Scheuermann RH, Shah N, Whetzel PL, Lewis S (November 2007). "The OBO Foundry: coordinated evolution of ontologies to support biomedical data integration". Nature Biotechnology. 25 (11): 1251–5. doi:10.1038/nbt1346. PMC 2814061. PMID 17989687..
^Lovering, Ruth C. (2017). "How Does the Scientific Community Contribute to Gene Ontology?". In Dessimoz, C; Skunca, N. The Gene Ontology Handbook. Methods in Molecular Biology (in English). 1446. Springer (New York). pp. 85–93. doi:10.1007/978-1-4939-3743-1_7. ISSN 1064-3745.CS1 maint: Unrecognized language (link).
^Diehl AD, Lee JA, Scheuermann RH, Blake JA (April 2007). "Ontology development for biological systems: immunology". Bioinformatics. 23 (7): 913–5. doi:10.1093/bioinformatics/btm029. PMID 17267433..
^"Gene Ontology Database". Gene Ontology Consortium..
^The GO Consortium (2009-03-16). "gene_ontology.1_2.obo" (OBO 1.2 flat file)..
^du Plessis L, Skunca N, Dessimoz C (November 2011). "The what, where, how and why of gene ontology--a primer for bioinformaticians". Briefings in Bioinformatics. 12 (6): 723–35. doi:10.1093/bib/bbr002. PMC 3220872. PMID 21330331..
^Pinoli P, Chicco D, Masseroli M (June 2013). "Computational algorithms to predict Gene Ontology annotation". BMC Bioinformatics. 16 (6): 1–15. doi:10.1186/1471-2105-16-S6-S4. PMC 4416163. PMID 25916950..
^Cozzetto, Domenico; Jones, David T. (2017). "Computational Methods for Annotation Transfers from Sequence". In Dessimoz, C; Skunca, N. The Gene Ontology Handbook. Methods in Molecular Biology (in English). 1446. Springer (New York). pp. 55–67. doi:10.1007/978-1-4939-3743-1_5. ISSN 1064-3745.CS1 maint: Unrecognized language (link).
^The GO Consortium (2009-03-16). "AmiGO: P68032 Associations"..
^Mosquera JL, Sánchez-Pla A (July 2008). "SerbGO: searching for the best GO tool". Nucleic Acids Research. 36 (Web Server issue): W368–71. doi:10.1093/nar/gkn256. PMC 2447766. PMID 18480123..
^Carbon S, Ireland A, Mungall CJ, Shu S, Marshall B, Lewis S (January 2009). AmiGO Hub; Web Presence Working Group. "AmiGO: online access to ontology and annotation data". Bioinformatics. 25 (2): 288–9. doi:10.1093/bioinformatics/btn615. PMC 2639003. PMID 19033274..
^AmiGO--the current official web-based set of tools for searching and browsing the Gene Ontology database.
^AmiGO Term Enrichment tool; finds significant shared GO terms in an annotation set.
^AmiGO Slimmer; maps granular annotations up to high-level terms.
^GOOSE, GO Online SQL Environment; allows direct SQL querying of the GO database.
^The Plant Ontology Consortium (2009-03-16). "Plant Ontology Consortium". Retrieved 2009-03-16..
^"Gene Ontology downloads at SourceForge". Retrieved 2009-03-16..
^Day-Richter J, Harris MA, Haendel M, Lewis S (August 2007). "OBO-Edit--an ontology editor for biologists". Bioinformatics. 23 (16): 2198–200. doi:10.1093/bioinformatics/btm112. PMID 17545183..
^"The GO Consortium". Retrieved 2009-03-16..
^Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G (May 2000). "Gene ontology: tool for the unification of biology. The Gene Ontology Consortium". Nature Genetics. 25 (1): 25–9. doi:10.1038/75556. PMC 3037419. PMID 10802651..
^Deb, B. (2012). "An ontological analysis of some biological ontologies". Frontiers in Genetics. 3. doi:10.3389/fgene.2012.00269. PMC 3509948..
暂无