生物信息学

人类X染色体图谱(来自国家生物技术信息中心网站)。

生物信息学是一个跨学科的领域，目的是开发理解生物数据的方法和软件工具。生物信息学作为一个跨学科的科学领域，结合了生物学、计算机科学、信息工程、数学和统计学的相关知识用于分析和解释生物数据。通过数学和统计技术，生物信息学已经被用于对生物数据库进行计算机分析。

生物信息学既是生物研究主体的总称，该研究主体使用计算机编程作为其方法论的一部分；也是对重复使用的特定分析“管道”的引用，特别是在基因组学领域。生物信息学的常见用途包括候选基因的鉴定和单核苷酸多态性(SNPs)。通常，这种鉴定的目的是为了更好地理解疾病的遗传基础、独特的适应性、理想的特性(特别是农业物种)或种群间的差异。以一种不太正式的方式，生物信息学也试图理解核酸和蛋白质序列中的组织原则，称为蛋白质组学。^[1]

1 介绍编辑

生物信息学已经成为生物学许多领域的重要组成部分。在实验分子生物学中，图像和信号处理等生物信息学技术允许从大量原始数据中提取有用的结果。在遗传学领域，它有助于对基因组及其观察到的突变进行测序和注释。它在生物文献的文本挖掘以及生物和基因本体的发展中起着组织和查询生物数据的作用。它还在基因和蛋白质表达和调节的分析中发挥作用。生物信息学工具有助于比较遗传和基因组数据，更概括的说，有助于理解分子生物学的进化方面。在更综合的层面上，它有助于分析和编目作为系统生物学重要组成部分的生物路径和网络。在结构生物学中，它有助于对DNA、RNA、^[2]^[3] 蛋白质^[4] 以及生物分子间的相互作用进行模拟和建模。^[5]^[6]^[7]^[8]

1.1 历史

历史上，生物信息学这个术语和它今天的意义并不一样。波利恩·霍格威和本·海茨帕在1970年创造了这个词，用来指对生物系统中信息过程的研究。^[9]^[10]^[11] 这一定义将生物信息学定位为一个平行于生物化学(研究生物系统中的化学过程)的领域。^[9]

序列

遗传物质序列在生物信息学中经常使用，使用计算机比手工更容易管理。

20世纪50年代初，弗雷德里克·桑格确定胰岛素序列后，蛋白质序列的获取成为可能，计算机成为分子生物学中的关键。手动比较多个序列被证明是不切实际的。这一领域的先驱是玛格丽特·奥克利·戴霍夫。^[12] 她编译了第一批蛋白质序列数据库，最初作为书籍出版，^[13] 并开创了序列比对和分子进化的方法。^[14] 生物信息学的另一个早期贡献者是艾文·卡巴特，他在1970年开创了生物序列分析方法，他在1980年至1991年间与泰特·吴一起发布了大量的抗体序列。^[15]

1.2 目标

为了研究正常细胞活动在不同疾病状态下是如何改变的，生物数据必须结合起来，形成这些活动的综合图像。因此，生物信息学领域已经发展到现在最紧迫的任务是分析和解释各种类型的数据。这包括核苷酸和氨基酸序列、蛋白质结构域和蛋白质结构。^[16] 分析和解释数据的实际过程被称为计算生物学。生物信息学和计算生物学中的重要子学科包括:

开发和执行计算机程序，使各种类型的信息能够得到有效的访问、使用和管理
开发评估大数据集之间关系的新算法(数学公式)和统计方法。例如，定位序列中的基因，预测蛋白质结构和/或功能，并将蛋白质序列聚类到相关序列的家族中等的各种方法。

生物信息学的主要目标是增加对生物过程的理解。然而，它与其他方法的不同之处在于它专注于开发和应用计算密集型技术来实现这一目标。例子包括:模式识别、数据挖掘、机器学习算法和可视化。该领域的主要研究工作包括序列比对、基因挖掘、基因组组装、药物设计、药物发现、蛋白质结构比对、蛋白质结构预测、基因表达预测和蛋白质-蛋白质相互作用、全基因组关联研究、进化和细胞分裂/有丝分裂建模。

生物信息学现在需要创建和发展数据库、算法、计算和统计技术以及理论，用于解决生物数据管理和分析中出现的形式和实际问题。

在过去的几十年里，基因组和其他分子研究技术的快速发展以及信息技术的发展结合起来，产生了大量与分子生物学相关的信息。生物信息学是这些数学和计算方法的名称，用来收集对生物过程的理解。

生物信息学中常见的形式包括绘制和分析DNA和蛋白质序列，对DNA和蛋白质序列进行比较，以及创建和查看蛋白质结构的三维模型。

1.3 与其他领域的关系

生物信息学是一个类似于但不同于生物计算的科学领域，虽然它通常被认为是计算生物学的同义词。生物计算使用生物工程和生物学来构建生物计算机，而生物信息学使用计算来更好地理解生物学。生物信息学和计算生物学涉及生物数据的分析，特别是DNA、RNA和蛋白质序列。生物信息学领域从20世纪90年代中期开始经历了爆炸性的增长，这主要是由人类基因组计划和DNA测序技术的快速进步推动的。

分析生物数据产生有意义的信息包括编写和运行软件程序，这些程序使用来自图论、人工智能、软计算、数据挖掘、图像处理和计算机模拟的算法。算法又依赖于理论基础，如离散数学、控制理论、系统理论、信息论和统计学。

2 序列分析编辑

不同基因或蛋白质的序列可以并排排列以测量它们的相似性。这种比对比较了蛋白质序列和含有WPP结构域的基因组序列。

自从噬菌体φ-X174在1977年被测序以来，^[17] 分析序列信息可以确定编码蛋白质、RNA基因、调节序列、结构基序和重复序列的基因。一个物种内或不同物种之间的基因比较可以显示蛋白质功能之间的相似性，或物种之间的关系(使用分子系统学构建系统进化树)。随着数据量的增长，很久以前手工分析DNA序列变得不切实际。今天，计算机程序如BLAST每天都被用来从超过260,000个生物体中搜索序列，^[18]包含超过1900亿个核苷酸。这些程序可以补偿基因序列中的突变(交换、删除或插入碱基)，以识别相关但不相同的序列。这种序列比对的变体用于测序过程本身。对于序列片段分类的特殊任务，现代基于k-mer的软件如Kraken实现了比对方法无法达到的通量。

2.1 DNA测序

在分析序列之前，必须先获得它们。DNA测序仍然是一个不小的问题，因为原始数据可能有噪声或受到微弱信号的影响。多种算法已经被开发出来用于分析多种测序方法的结果。

2.2 序列组装

大多数DNA测序技术产生的短序列片段需要组装才能获得完整的基因或基因组序列。所谓的鸟枪测序技术(例如，由基因组研究所(TIGR)用来对第一个细菌基因组流感嗜血杆菌进行测序)^[19]产生了成千上万个小的DNA片段的序列(根据测序技术，长度从35到900个核苷酸不等)。这些片段的末端重叠，当通过基因组组装程序正确排列时，可以用来重建完整的基因组。鸟枪测序能快速产生序列数据，但是对于更大的基因组来说，组装片段的任务可能相当复杂。对于像人类基因组一样大的基因组来说，在大内存、多处理器计算机上组装片段可能需要很多天的CPU时间，而最终的组装通常包含许多必须在以后填补的空白。鸟枪法测序是当今几乎所有测序基因组的首选方法。基因组组装算法是生物信息学研究的一个关键领域。

2.3 基因组注释

在基因组学的背景下，注释是在基因序列中标记基因和其他生物特征的过程。这个过程需要自动化，因为大多数基因组太大，不能用手工注释，更不用说注释尽可能多的基因组了，因为测序的速度已经不再是瓶颈。注释之所以成为可能，是因为基因有可识别的起始和终止区域，尽管在这些区域中发现的确切序列可能因基因而异。

基因组研究所的团队于1995年 ^[19] 首次描述了第一个综合基因组注释系统。该团队对一种自然生物——流感嗜血杆菌^[19]——的基因组进行了第一次完整的测序和分析。欧文·怀特(Owen White)设计并构建了一个软件系统用于识别编码所有蛋白质的基因，转运RNA、核糖体RNA(以及其他位点)，并进行初始功能分配。目前大多数基因组注释系统的工作原理相似，但可用于基因组DNA分析的程序，如经过训练并用于在流感嗜血杆菌中发现蛋白质编码基因的GeneMark程序，正在不断变化和改进。

继人类基因组计划在2003年结束后留下来需要实现的目标之后，美国国家人类基因组研究所开发的一个新项目出现了。所谓的编码项目(ENCODE project)是人类基因组功能元素的协作数据收集，它使用下一代DNA测序技术和基因组平铺阵列，这些技术能够以大幅降低的单位成本自动生成大量数据，同时保证相同水平的精确度(基本调用误差)和保真度(装配误差)。

2.4 计算进化生物学

进化生物学研究物种的起源和世代，以及它们随时间的变化。生物信息学辅助进化生物学家通过使研究人员能够:

通过测量大量生物的DNA的变化来追踪它们的进化，而不是仅仅通过物理分类或生理观察，
比较整个基因组，这允许研究更复杂的进化事件，例如基因复制、水平基因转移和预测细菌物种形成中的重要因素，
建立复杂的计算群体遗传学模型来预测系统随时间变化的结果^[20]
跟踪和共享越来越多的物种和有机体的信息

进一步的工作正在努力重建比现在更加复杂的生命树。

计算机科学中使用遗传算法的研究领域有时与计算进化生物学混淆，但这两个领域不一定相关。

2.5 比较基因组学

比较基因组分析的核心是建立不同生物体中基因(正交性分析)或其他基因组特征之间的对应关系。正是这些属间图使得追踪导致两个基因组差异的进化过程成为可能。在不同的组织层次上发生的大量进化事件塑造了基因组进化。在最低水平，点突变影响单个核苷酸。在更高水平上，大染色体片段经历复制、侧向转移、倒位、转位、缺失和插入。^[21] 最终，整个基因组都参与杂交、多倍体化和内共生的过程，往往导致快速物种形成。基因组进化的复杂性给数学模型和算法的开发者带来了许多令人兴奋的挑战，他们求助于从精确的、启发式的、基于简约模型的问题的固定参数和逼近算法到基于概率模型的问题贝叶斯分析的马尔可夫链蒙特卡罗算法等一系列算法、统计和数学技术。

这些中许多的研究是基于序列同源性的检测，以将序列分配给不同的蛋白质家族。^[22]

2.6 泛基因组学

泛基因组学是泰特林和麦地那在2005年引入的一个概念，最终扎根于生物信息学。泛基因组是特定分类群的完整基因库:虽然最初应用于一个物种的密切相关的菌株，但它也可以应用于更大的环境，如属、门等。它分为两个部分——核心基因组:所有被研究基因组共有的一组基因(这些通常是对生存至关重要的管家基因)和可有可无/灵活基因组:除了一个或一些被研究基因组之外，不存在于所有基因组中的一组基因。BPGA的生物信息学工具可以用来表征细菌物种的泛基因组。^[23]

2.7 疾病遗传学

随着下一代测序技术的出现，我们获得了足够的序列数据来绘制复杂疾病如不育、乳腺癌^[24]或阿尔茨海默病^[25]的基因图。^[26]全基因组关联研究是查明导致这种复杂疾病的突变的有用方法。^[27] 通过这些研究，数以千计的与类似疾病和特征相关的基因变异被识别出来。^[28]此外，基因用于预后、诊断或治疗的可能性是最重要的应用之一。许多研究正在讨论选择要使用的基因的有前景的方法，以及使用基因预测疾病存在或预后的问题和缺陷。^[29]

2.8 癌症突变分析

在癌症中，受影响细胞的基因组以复杂甚至不可预测的方式重新排列。大规模测序工作被用来鉴定癌症中各种基因先前未知的点突变。生物信息学家继续设计专门的自动化系统来管理产生的大量序列数据，他们创造了新的算法和软件来将测序结果与不断增长的人类基因组序列和种系多态性集合进行比较。采用新的物理检测技术，例如识别染色体增加或者缺失的寡核苷酸微阵列(称为比较基因组杂交)，以及检测已知点突变的单核苷酸多态性阵列。这些检测方法同时测量整个基因组中的几十万个位点，当用于高通量测量数千个样本时，每个实验产生万亿字节的数据。大量新类型的数据再次为生物信息学家创造了新的机会。数据通常、包含相当大的可变性或噪声，因此隐马尔可夫模型和变化点分析方法被开发来推断真实拷贝数的变化。

两个重要的原则可用于癌症基因组的生物信息学分析，涉及外显子组突变的识别。首先，癌症是一种体细胞基因突变累积的疾病。第二种癌症包含司机突变，需要与乘客突变区分开来。^[30]

随着这种下一代测序技术在生物信息学领域的突破，癌症基因组学可能会发生巨大变化。这些新方法和软件允许生物信息学家快速且经济地对许多癌症基因组进行测序。这可以通过分析基因组中癌症驱动的突变，创建一个更灵活的癌症分类过程。此外，利用癌症样本的序列在疾病发展的同时跟踪患者可能在将来成为可能。^[31]

另一种需要新生物信息学发展的数据类型是对许多肿瘤中复发的病变的分析。

3 基因和蛋白质表达编辑

3.1 基因表达分析

许多基因的表达可以通过用多种技术测量基因水平来确定，包括微阵列、表达的基因序列标签(EST)测序、基因表达的序列分析(SAGE)标签测序、大规模平行标记测序(MPSS)、RNA测序(RNA-Seq)，也称为“全转录组鸟枪法测序”(WTSS)，或多重原位杂交的各种应用。所有这些技术都极易产生噪声和/或在生物测量中受到偏差的影响，计算生物学的一个主要研究领域是开发统计工具，在高通量基因表达研究中从噪声中分离信号。^[32] 这种研究经常被用来确定与疾病有关的基因:人们可以将来自癌性上皮细胞的微阵列数据与来自非癌性细胞的数据进行比较，以确定特定癌细胞群体中上调和下调的转录产物。

3.2 蛋白质表达分析

蛋白质微阵列和高通量质谱可以提供生物样品中蛋白质的信息。生物信息学在理解蛋白质微阵列和高温质谱数据方面非常重要；前一种方法面临着与靶向基因的微阵列相似的问题，后一种方法涉及将大量质谱数据与来自蛋白质序列数据库的预测质谱相匹配的问题，以及对样品进行复杂的统计分析，其中检测的蛋白质是数量多但不完整的肽。组织环境中的细胞蛋白质定位可以通过亲和蛋白质组学实现，亲和蛋白质组学显示为基于免疫组织化学和组织微阵列的空间数据。^[33]

3.3 调控分析

基因调控是一种复杂的事件协调过程，通过这种过程，一种信号，潜在的细胞外信号，如激素，最终导致一种或多种蛋白质活性的增加或减少。生物信息学技术已经被用于探索这个过程中的各个步骤。

例如，基因表达可以由基因组中附近的元素调节。启动子分析包括识别和研究基因编码区周围的序列模体。这些模体影响该区域转录成基因的程度。远离启动子的增强子元件也可以通过三维环状相互作用来调节基因表达。这些相互作用可以通过染色体构象捕获实验的生物信息学分析来确定。

表达数据可用于推断基因调控:人们可以比较来自生物体各种状态的微阵列数据，以形成关于每种状态所涉及基因的假设。在单细胞生物中，人们可能会比较细胞周期的各个阶段，以及各种应激条件(热休克、饥饿等)。然后可以对表达数据应用聚类算法来确定哪些基因被共同表达。例如，可以在共表达基因的上游区域(启动子)搜索过度表达的调控元件。基因聚类中应用的聚类算法的例子有k均值聚类、自组织映射(SOMs)、层次聚类和一致性聚类方法。

4 细胞组织分析编辑

研究人员已经开发了几种方法用于分析细胞器、基因、蛋白质和细胞内其他成分的位置。这是相关的，因为这些成分的位置影响细胞内的事件，从而帮助我们预测生物系统的行为。研究人员在许多生物数据库中捕捉亚细胞定位（基因本体论范畴的细胞隔间）。

4.1 显微镜和图像分析

显微照片使我们能够定位细胞器和分子。它还可以帮助我们区分正常细胞和异常细胞，例如癌症细胞。

4.2 蛋白质定位

蛋白质的定位有助于我们评估蛋白质的作用。例如，如果在细胞核中发现一种蛋白质，它可能参与基因调控或分裂。相反，如果在线粒体中发现蛋白质，它可能参与呼吸或其他代谢过程。因此，蛋白质定位是蛋白质功能预测的重要组成部分。现在已经有成熟的蛋白质亚细胞定位预测资源，包括蛋白质亚细胞定位数据库和预测工具。^[34]^[35]

4.3 染色质的核组织

来自高通量染色体构象捕获实验的数据，例如Hi-C和ChIA-PET，可以提供关于基因座空间邻近性的信息。分析这些实验可以确定染色质的三维结构和核组织。这一领域的生物信息学挑战包括将基因组分成在三维空间中组织在一起的域，如拓扑关联域(TADs)。^[36]

5 结构生物信息学编辑

像这样的三维蛋白质结构是生物信息学分析中常见的课题。

蛋白质结构预测是生物信息学的另一个重要应用。蛋白质的氨基酸序列，即所谓的初级结构，可以很容易地从编码它的基因序列中确定出来。在绝大多数情况下，这种主要结构独特地决定了其自然环境中的结构。(当然，也有例外，比如牛海绵状脑病——又称疯牛病——朊病毒。)了解这种结构对于理解蛋白质的功能至关重要。结构信息通常分为二级、三级和四级结构。这种预测的可行的总体解决方案仍然是一个悬而未决的问题。迄今为止，大多数努力都是针对大多数情况下有效的启发式方法。

生物信息学的关键思想之一是同源性的概念。在生物信息学的基因组分支中，同源性被用来预测基因的功能:如果功能已知的基因A序列与功能未知的基因B序列同源，就可以推断出基因B可能共享基因A的功能。在生物信息学的结构分支中，同源性被用来确定蛋白质的哪些部分在结构形成和与其他蛋白质的相互作用中是重要的。在一种称为同源建模的技术中，一旦同源蛋白质的结构已知，这些信息就被用来预测蛋白质的结构。这是目前可靠预测蛋白质结构的唯一方法。

这方面的一个例子是人类的血红蛋白和豆科植物的血红蛋白(豆血红蛋白)，它们是同一蛋白质超家族的远亲。两者在生物体中输送氧气的目的相同。尽管这两种蛋白质具有完全不同的氨基酸序列，但它们的蛋白质结构实际上是相同的，这反映了它们近乎相同的目的和共同的祖先。^[37]

预测蛋白质结构的其他技术包括蛋白质穿引和从头开始的基于物理的建模。

结构生物信息学的另一个方面包括将蛋白质结构用于虚拟筛选模型，如定量结构-活性关系模型和蛋白质化学计量模型。此外，蛋白质的晶体结构可用于模拟例如配体结合研究和计算机诱变研究。

6 网络和系统生物学编辑

网络分析寻求理解生物网络内的关系，如代谢或蛋白质-蛋白质相互作用网络。虽然生物网络可以由单一类型的分子或实体(如基因)构建，但网络生物学经常试图整合许多不同的数据类型，如蛋白质、小分子、基因表达数据等，它们都在物理上、功能上或两者都有关联。

系统生物学包括使用细胞子系统(如代谢物和酶网络，包括代谢、信号转导途径和基因调控网络)的计算机模拟来分析和可视化这些细胞过程的复杂联系。人工生命或虚拟进化试图通过简单(人工)生命形式的计算机模拟来理解进化过程。

6.1 分子相互作用网络

蛋白质之间的相互作用经常用网络可视化和分析。这个网络由梅毒和其他疾病的病原体梅毒螺旋体的蛋白质相互作用组成。

成千上万的三维蛋白质结构已经由x光晶体学和蛋白质核磁共振谱(蛋白质核磁共振)确定，结构生物信息学的一个中心问题是，仅仅基于这些三维形状而不进行蛋白质-蛋白质相互作用实验预测可能的蛋白质-蛋白质相互作用是否可行。。研究人员已经开发了多种方法来解决蛋白质-蛋白质对接问题，尽管在这一领域似乎还有许多工作要做。

该领域遇到的其他相互作用包括蛋白质-配体(包括药物)和蛋白质-肽。原子围绕旋转键运动的分子动力学模拟是研究分子相互作用的计算算法(称为对接算法)背后的基本原理。

7 其他编辑

7.1 文献分析

出版文献数量的增长使得研究人员几乎不可能阅读每一篇论文，导致研究的子领域脱节。文献分析旨在利用计算和统计语言学来挖掘这个不断增长的文本资源库。例如:

缩写识别–识别生物学术语的长形式和缩写
命名实体识别——识别生物术语，如基因名称
蛋白质-蛋白质相互作用-识别文本中哪些蛋白质与哪些蛋白质相互作用

研究领域来自统计学和计算语言学。

7.2 高通量图像分析

计算技术用于加速或完全自动化大量高信息含量生物医学图像的处理、量化和分析。现代图像分析系统通过提高精确度、客观性或速度，增强了观察者从大量或复杂图像中进行测量的能力。一个开发完全的分析系统可以完全取代观察者。尽管这些系统并非生物医学成像所独有，但生物医学成像对诊断和研究都变得越来越重要。一些例子是:

高通量和高保真定量和亚细胞定位(高含量筛选、细胞组织病理学、生物图像信息学)
形态特征
临床图像分析和可视化
确定活体动物呼吸肺中的实时气流模式
从动脉损伤的发展和恢复中量化实时图像中的闭塞大小
从实验动物的扩展视频记录中进行行为观察
用于代谢活动测定的红外测量
推断克隆在DNA图谱中的重叠，例如苏尔斯顿分数

7.3 高通量单细胞数据分析

计算技术用于分析高通量、低测量的单细胞数据，例如从流式细胞仪获得的数据。这些方法通常包括寻找与特定疾病状态或实验条件相关的细胞群。

7.4 生物多样性信息学

生物多样性信息学处理生物多样性数据的收集和分析，如分类数据库或微生物群数据。这种分析的例子包括遗传基因、生态位建模、物种丰富度绘图、DNA条形码或物种识别工具。

7.5 本体论和数据集成

生物本体是受控词汇的有向无环图。它们旨在捕捉生物学概念和描述，便于用计算机进行分类和分析。当以这种方式分类时，从整体和综合分析中获得附加值是可能的。

OBOFoundry致力于标准化某些本体。其中最广泛的是描述基因功能的基因本体论。也有描述表型的本体论。

8 数据库编辑

数据库对于生物信息学研究和应用至关重要。存在许多数据库，涵盖各种信息类型:例如，DNA和蛋白质序列、分子结构、表型和生物多样性。数据库可能包含经验数据(直接从实验中获得)、预测数据(从分析中获得)，或最常见的两者。它们可能对特定的生物体、途径或感兴趣的分子具有特异性。或者，它们可以合并从多个其他数据库编译的数据。这些数据库在格式、访问机制以及它们是否公开方面各不相同。

下面列出了一些最常用的数据库。

用于生物序列分析:Genbank，UniProt
用于结构分析:蛋白质数据库(PDB)
用于寻找蛋白质家族和基序:InterPro，Pfam
用于下一代测序:序列读取存档
用于网络分析:代谢途径数据库(KEGG，BioCyc)，相互作用分析数据库，功能网络
用于合成遗传电路的设计:GenoCAD

9 软件和工具编辑

生物信息学软件工具的范围从简单的命令行工具到更复杂的图形程序和各种生物信息学公司或公共机构提供的独立网络服务。

9.1 开源生物信息学软件

自20世纪80年代以来，许多免费和开源软件工具已经存在并继续增长。^[38] 对用于分析新兴类型生物读数的新算法的持续需求、创新电子实验的潜力和免费开放代码库的结合，为了所有研究团体创造新的机会，为生物信息学和一系列可用的开放源代码软件做出贡献，无论它们的资助是如何获得的。开源工具通常是想法的孵化器，或者商业应用中社区支持的插件。它们还可以提供业界标准和共享的对象模型来帮助研究人员应对生物信息集成的挑战。

开源软件包的范围包括诸如Bioconductor、BioPerl、 Biopython、 BioJava、BioJS、BioRuby、Bioclipse、EMBOSS、.NET Bio、Orange及其生物信息学插件，Apache Taverna，UGENE和GenoCAD。^[38] 为了保持这一传统并创造更多的机会，非营利的开放生物信息学基金会自2000年以来一直支持一年一度的生物信息学开放源码会议(BOSC)。^[39]

构建公共生物信息学数据库的另一种方法是使用带有维基百科扩展的媒体维基引擎。该系统允许该领域的所有专家访问和更新数据库。^[40]

9.2 生物信息学中的Web服务

基于SOAP和REST的接口已经为各种各样的生物信息学应用程序开发出来，允许运行在世界一个地方的一台计算机上的应用程序在世界其他地方的服务器上使用算法、数据和计算资源。期主要优势是终端用户不必进行软件和数据库维护开销。

EBI将基本生物信息学服务分为三类:序列搜索服务、多序列比对服务和生物序列分析服务。^[41] 这些面向服务的生物信息学资源的可用性证明了基于网络的生物信息学解决方案的适用性，范围从在单一、独立或基于网络的界面下具有通用数据格式的独立工具的集合，到集成、分布式和可扩展的生物信息学工作流管理系统。

9.3 生物信息学工作流管理系统

生物信息学工作流管理系统是工作流管理系统的一种特殊形式，专门设计用于在生物信息学应用程序中组成和执行一系列计算或数据操作步骤或工作流。这种系统旨在

为单个应用科学家自己创建自己的工作流提供一个易于使用的环境，
为科学家提供交互式工具，使他们能够执行工作流并实时查看结果，
简化科学家之间共享和重用工作流的过程，
使科学家能够跟踪工作流执行结果和工作流创建步骤的来源。

提供这项服务的一些平台有: Galaxy、Kepler、Taverna、UGENE、Anduril、HIVE。

9.4 生物计算机和生物计算机对象

2014年，美国食品和药物管理局在国家卫生研究院贝塞斯达校区主办了一次会议，讨论生物信息学中的再现性。^[42] 在接下来的三年里，一群利益相关者定期会面，讨论什么将成为生物计算机范例。^[43] 这些利益攸关方包括政府、行业和学术实体的代表。会议领导人代表了美国食品和药物管理局和美国国立卫生研究院的许多分支机构和中心，包括人类变异组项目和欧洲医学信息学联合会在内的非营利实体，以及包括斯坦福大学、纽约基因组中心和乔治华盛顿大学在内的研究机构。

会议决定已经决定生物计算机范例将采用数字“实验室笔记本”的形式，允许生物信息学协议的再现性、复制性、审查性和重用性。这是为了使研究小组在正常人员流动过程中保持更大的连续性，同时促进小组之间的思想交流。美国食品和药物管理局资助了这项工作，以使管道信息更加透明，便于监管人员获取。^[44]

2016年，该小组在贝塞斯达的国立卫生研究院再次召开会议，讨论了生物计算机对象的潜力，这是生物计算机范例的一个实例。这项工作被复制为“标准试用”文件和上传到bioRxiv的预印本文件。生物计算机对象允许员工、合作者和监管者共享JSON化的记录。^[45]^[46]

10 教育平台编辑

旨在教授生物信息学概念和方法的软件平台包括Rosalind和通过瑞士生物信息学研究所培训门户网站提供的在线课程。加拿大生物信息学研讨会根据知识共享许可在其网站上提供培训研讨会的视频和幻灯片。4273π项目或4273pi项目^[47] 也免费提供开源教育材料。该课程在低成本的 Raspberry Pi电脑上运行，并已被用于教育成人和小学生。^[48]^[49]4273π由一个学术团体和研究人员积极开发，他们使用Raspberry Pi计算机和4273π操作系统运行研究级生物信息学。^[50]^[51]

MOOC平台还提供生物信息学和相关学科的在线认证，包括Coursera的生物信息学专业(加州大学圣地亚哥分校)和基因组数据科学专业(约翰·霍普金斯大学)以及EdX的生命科学系列数据分析(哈佛大学)。南加州大学提供侧重于生物医学应用的翻译生物信息学硕士学位。

11 会议编辑

有几个关于生物信息学的大型会议。一些最著名的例子是分子生物学智能系统(ISMB)、欧洲计算生物学会议(ECCB)和计算分子生物学研究会议（RECOMB）。

参考文献

[1]
^Lesk, A. M. (26 July 2013). "Bioinformatics". Encyclopaedia Britannica. Retrieved 17 April 2017..
[2]
^Sim, A. Y. L.; Minary, P.; Levitt, M. (2012). "Modeling nucleic acids". Current Opinion in Structural Biology. 22 (3): 273–278. doi:10.1016/j.sbi.2012.03.012. PMC 4028509. PMID 22538125..
[3]
^Dawson, W. K.; Maciejczyk, M.; Jankowska, E. J.; Bujnicki, J. M. (2016). "Coarse-grained modeling of RNA 3D structure" (PDF). Methods. 103: 138–156. doi:10.1016/j.ymeth.2016.04.026. PMID 27125734..
[4]
^Kmiecik, S.; Gront, D.; Kolinski, M.; Wieteska, L.; Dawid, A. E.; Kolinski, A. (2016). "Coarse-Grained Protein Models and Their Applications". Chemical Reviews. 116 (14): 7898–936. doi:10.1021/acs.chemrev.6b00163. PMID 27333362..
[5]
^Wong, K. C. (2016). Computational Biology and Bioinformatics: Gene Regulation. CRC Press/Taylor & Francis Group. ISBN 9781498724975..
[6]
^Joyce, A. P.; Zhang, C.; Bradley, P.; Havranek, J. J. (2015). "Structure-based modeling of protein: DNA specificity". Briefings in Functional Genomics. 14 (1): 39–49. doi:10.1093/bfgp/elu044. PMC 4366589. PMID 25414269..
[7]
^Spiga, E.; Degiacomi, M. T.; Dal Peraro, M. (2014). "New Strategies for Integrative Dynamic Modeling of Macromolecular Assembly". In Karabencheva-Christova, T. Biomolecular Modelling and Simulations. Advances in Protein Chemistry and Structural Biology. 96. Academic Press. pp. 77–111. doi:10.1016/bs.apcsb.2014.06.008. ISBN 9780128000137. PMID 25443955..
[8]
^Ciemny, Maciej; Kurcinski, Mateusz; Kamel, Karol; Kolinski, Andrzej; Alam, Nawsad; Schueler-Furman, Ora; Kmiecik, Sebastian (2018-05-04). "Protein–peptide docking: opportunities and challenges". Drug Discovery Today (in 英语). 23 (8): 1530–1537. doi:10.1016/j.drudis.2018.05.006. ISSN 1359-6446. PMID 29733895..
[9]
^Hogeweg P (2011). Searls, David B., ed. "The Roots of Bioinformatics in Theoretical Biology". PLoS Computational Biology. 7 (3): e1002021. Bibcode:2011PLSCB...7E2021H. doi:10.1371/journal.pcbi.1002021. PMC 3068925. PMID 21483479..
[10]
^Hesper B, Hogeweg P (1970). "Bioinformatica: een werkconcept". 1 (6). Kameleon: 28–29..
[11]
^Hogeweg P (1978). "Simulating the growth of cellular forms". Simulation. 31 (3): 90–96. doi:10.1177/003754977803100305..
[12]
^Moody, Glyn (2004). Digital Code of Life: How Bioinformatics is Revolutionizing Science, Medicine, and Business. ISBN 978-0-471-32788-2..
[13]
^Dayhoff, M.O. (1966) Atlas of protein sequence and structure. National Biomedical Research Foundation, 215 pp..
[14]
^Eck RV, Dayhoff MO (1966). "Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences". Science. 152 (3720): 363–6. Bibcode:1966Sci...152..363E. doi:10.1126/science.152.3720.363. PMID 17775169..
[15]
^Johnson G, Wu TT (January 2000). "Kabat Database and its applications: 30 years after the first variability plot". Nucleic Acids Res. 28 (1): 214–218. doi:10.1093/nar/28.1.214. PMC 102431. PMID 10592229..
[16]
^Attwood TK, Gisel A, Eriksson NE, Bongcam-Rudloff E (2011). "Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective". Bioinformatics - Trends and Methodologies. Bioinformatics – Trends and Methodologies. InTech. doi:10.5772/23535. ISBN 978-953-307-282-1. Retrieved 8 Jan 2012..
[17]
^Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA, Hutchison CA, Slocombe PM, Smith M (February 1977). "Nucleotide sequence of bacteriophage phi X174 DNA". Nature. 265 (5596): 687–95. Bibcode:1977Natur.265..687S. doi:10.1038/265687a0. PMID 870828..
[18]
^Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (January 2008). "GenBank". Nucleic Acids Res. 36 (Database issue): D25–30. doi:10.1093/nar/gkm929. PMC 2238942. PMID 18073190..
[19]
^Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM (July 1995). "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd". Science. 269 (5223): 496–512. Bibcode:1995Sci...269..496F. doi:10.1126/science.7542800. PMID 7542800..
[20]
^Carvajal-Rodríguez A (2012). "Simulation of Genes and Genomes Forward in Time". Current Genomics. 11 (1): 58–61. doi:10.2174/138920210790218007. PMC 2851118. PMID 20808525..
[21]
^Brown, TA (2002). "Mutation, Repair and Recombination". Genomes (2nd ed.). Manchester (UK): Oxford..
[22]
^Carter, N. P.; Fiegler, H.; Piper, J. (2002). "Comparative analysis of comparative genomic hybridization microarray technologies: Report of a workshop sponsored by the Wellcome trust". Cytometry Part A. 49 (2): 43–8. doi:10.1002/cyto.10153. PMID 12357458..
[23]
^Chaudhari Narendrakumar M., Kumar Gupta Vinod, Dutta Chitra (2016). "BPGA-an ultra-fast pan-genome analysis pipeline". Scientific Reports. 6: 24373. Bibcode:2016NatSR...624373C. doi:10.1038/srep24373. PMC 4829868. PMID 27071527.CS1 maint: Multiple names: authors list (link).
[24]
^Véron A, Blein S, Cox DG (2014). "Genome-wide association studies and the clinic: A focus on breast cancer". Biomarkers in Medicine. 8 (2): 287–96. doi:10.2217/bmm.13.121. PMID 24521025..
[25]
^Tosto G, Reitz C (2013). "Genome-wide association studies in Alzheimer's disease: A review". Current Neurology and Neuroscience Reports. 13 (10): 381. doi:10.1007/s11910-013-0381-0. PMC 3809844. PMID 23954969..
[26]
^Aston KI (2014). "Genetic susceptibility to male infertility: News from genome-wide association studies". Andrology. 2 (3): 315–21. doi:10.1111/j.2047-2927.2014.00188.x. PMID 24574159..
[27]
^Londin E, Yadav P, Surrey S, Kricka LJ, Fortina P (2013). Use of Linkage Analysis, Genome-Wide Association Studies, and Next-Generation Sequencing in the Identification of Disease-Causing Mutations. Pharmacogenomics. Methods in Molecular Biology. 1015. pp. 127–46. doi:10.1007/978-1-62703-435-7_8. ISBN 978-1-62703-434-0. PMID 23824853..
[28]
^Hindorff, L.A.; et al. (2009). "Potential etiologic and functional implications of genome-wide association loci for human diseases and traits". Proc. Natl. Acad. Sci. USA. 106 (23): 9362–9367. Bibcode:2009PNAS..106.9362H. doi:10.1073/pnas.0903103106. PMC 2687147. PMID 19474294..
[29]
^Hall, L.O. (2010). Finding the right genes for disease and prognosis prediction. System Science and Engineering (ICSSE),2010 International Conference. pp. 1–2. doi:10.1109/ICSSE.2010.5551766. ISBN 978-1-4244-6472-2..
[30]
^Vazquez, Miguel; Torre, Victor de la; Valencia, Alfonso (2012-12-27). "Chapter 14: Cancer Genome Analysis". PLOS Computational Biology (in 英语). 8 (12): e1002824. Bibcode:2012PLSCB...8E2824V. doi:10.1371/journal.pcbi.1002824. ISSN 1553-7358. PMC 3531315. PMID 23300415..
[31]
^Hye-Jung, E.C.; Jaswinder, K.; Martin, K.; Samuel, A.A; Marco, A.M (2014). "Second-Generation Sequencing for Cancer Genome Analysis". In Dellaire, Graham; Berman, Jason N.; Arceci, Robert J. Cancer Genomics. Boston (US): Academic Press. pp. 13–30. doi:10.1016/B978-0-12-396967-5.00002-5. ISBN 9780123969675..
[32]
^Grau, J.; Ben-Gal, I.; Posch, S.; Grosse, I. (1 July 2006). "VOMBAT: prediction of transcription factor binding sites using variable order Bayesian trees" (PDF). Nucleic Acids Research. 34 (Web Server): W529–W533. doi:10.1093/nar/gkl212. PMC 1538886. PMID 16845064..
[33]
^"The Human Protein Atlas". www.proteinatlas.org. Retrieved 2017-10-02..
[34]
^"The human cell". www.proteinatlas.org. Retrieved 2017-10-02..
[35]
^Thul, Peter J.; Åkesson, Lovisa; Wiking, Mikaela; Mahdessian, Diana; Geladaki, Aikaterini; Blal, Hammou Ait; Alm, Tove; Asplund, Anna; Björk, Lars (2017-05-26). "A subcellular map of the human proteome". Science. 356 (6340): eaal3321. doi:10.1126/science.aal3321. PMID 28495876..
[36]
^Ay, Ferhat; Noble, William S. (2 September 2015). "Analysis methods for studying the 3D architecture of the genome". Genome Biology. 16 (1): 183. doi:10.1186/s13059-015-0745-7. PMC 4556012. PMID 26328929..
[37]
^Hoy, JA; Robinson, H; Trent JT, 3rd; Kakar, S; Smagghe, BJ; Hargrove, MS (3 August 2007). "Plant hemoglobins: a molecular fossil record for the evolution of oxygen transport". Journal of Molecular Biology. 371 (1): 168–79. doi:10.1016/j.jmb.2007.05.029. PMID 17560601..
[38]
^"Open Bioinformatics Foundation: About us". Official website. Open Bioinformatics Foundation. Retrieved 10 May 2011..
[39]
^"Open Bioinformatics Foundation: BOSC". Official website. Open Bioinformatics Foundation. Retrieved 10 May 2011..
[40]
^Brohée, Sylvain; Barriot, Roland; Moreau, Yves (2010). "Biological knowledge bases using Wikis: combining the flexibility of Wikis with the structure of databases". Bioinformatics. 26 (17): 2210–2211. doi:10.1093/bioinformatics/btq348. PMID 20591906. Retrieved 5 May 2015..
[41]
^Nisbet, Robert (14 May 2009). "BIOINFORMATICS". Handbook of Statistical Analysis and Data Mining Applications. John Elder IV, Gary Miner. Academic Press. p. 328. ISBN 9780080912035. Retrieved 9 May 2014..
[42]
^Commissioner, Office of the. "Advancing Regulatory Science - Sept. 24-25, 2014 Public Workshop: Next Generation Sequencing Standards". www.fda.gov (in 英语). Retrieved 2017-11-30..
[43]
^Simonyan, Vahan; Goecks, Jeremy; Mazumder, Raja (2017). "Biocompute Objects—A Step towards Evaluation and Validation of Biomedical Scientific Computations". PDA Journal of Pharmaceutical Science and Technology. 71 (2): 136–146. doi:10.5731/pdajpst.2016.006734. ISSN 1079-7440. PMC 5510742. PMID 27974626..
[44]
^Commissioner, Office of the. "Advancing Regulatory Science - Community-based development of HTS standards for validating data and computation and encouraging interoperability". www.fda.gov (in 英语). Retrieved 2017-11-30..
[45]
^Alterovitz, Gil; Dean, Dennis A.; Goble, Carole; Crusoe, Michael R.; Soiland-Reyes, Stian; Bell, Amanda; Hayes, Anais; King, Charles Hadley S.; Johanson, Elaine (2017-10-04). "Enabling Precision Medicine via standard communication of NGS provenance, analysis, and results". bioRxiv 191783..
[46]
^BioCompute Object (BCO) project is a collaborative and community-driven framework to standardize HTS computational data. 1. BCO Specification Document: user manual for understanding and creating B., biocompute-objects, 2017-09-03, retrieved 2017-11-30.
[47]
^Barker, D; Ferrier, D.E.K.; Holland, P.W; Mitchell, J.B.O; Plaisier, H; Ritchie, M.G; Smart, S.D. (2013). "4273π : bioinformatics education on low cost ARM hardware". BMC Bioinformatics. 14: 243. doi:10.1186/1471-2105-14-243. PMC 3751261. PMID 23937194..
[48]
^Barker, D; Alderson, R.G; McDonagh, J.L; Plaisier, H; Comrie, M.M; Duncan, L; Muirhead, G.T.P; Sweeny, S.D. (2015). "University-level practical activities in bioinformatics benefit voluntary groups of pupils in the last 2 years of school". International Journal of STEM Education. 2 (17). doi:10.1186/s40594-015-0030-z..
[49]
^McDonagh, J.L; Barker, D; Alderson, R.G. (2016). "Bringing computational science to the public". SpringerPlus. 5 (259): 259. doi:10.1186/s40064-016-1856-7. PMC 4775721. PMID 27006868..
[50]
^Robson, J.F.; Barker, D (2015). "Comparison of the protein-coding gene content of Chlamydia trachomatis and Protochlamydia amoebophila using a Raspberry Pi computer". BMC Research Notes. 8 (561): 561. doi:10.1186/s13104-015-1476-2. PMC 4604092. PMID 26462790..
[51]
^Wregglesworth, K.M; Barker, D (2015). "A comparison of the protein-coding genomes of two green sulphur bacteria, Chlorobium tepidum TLS and Pelodictyon phaeoclathratiforme BU-1". BMC Research Notes. 8 (565): 565. doi:10.1186/s13104-015-1535-8. PMC 4606965. PMID 26467441..

阅读 5105