简介
1998年由研究三种模式(果蝇、小鼠和酵母)基因组的研究者共同发起组织了一个称为基因本体联盟的专业团队。创建基因本体的初衷是希望提供一个可具代表性的规范化的基因和基因产物特性的术语描绘或词义解释的工作平台,使生物信息学研究者对基因和基因产物的数据能够进行统一的归纳、处理、解释和共享。基因本体的建立促使生物信息学的研究进入了“书同文”的统一时代,这是一座生命信息学的“巴比伦塔”。
基因本体涉及的基因和基因产物词汇分为三大类,涵盖生物学的三个方面:
细胞组分(cellular component):细胞的每个部分和细胞外环境。
分子功能(molecular function):可以描述为分子水平的活性(activity),如催化(catalytic)或结合(binding)活性。
生物过程(biological process):生物学过程系指由一个或多个分子功能有序组合而产生的系列事件。其定义有广义和狭义之分,在词义上可以区分为泛指和特指。一般规律是,一个过程是由多个不同的步骤组成。需要指出的是,生物学过程与途径或通路(pathway)不是同一回事。
内容详解
基因本体是一个有向无环图(DAG)型的本体。目前,GO中使用了is_a和part_of和regulates三种关系。
Ontology: 哲学中称为本体论/存在论,这里本质是指一系列特定的文字可用来形容一些特定的模式、元件或角色,因此在国外的华人生物信息学家中试译为语义(学)。
GO(gene ontology)对大家而言也许会是一个相对陌生的名词,但是它已经成为生物信息领域中一个极为重要的方法和工具,并正在逐步改变着我们对生物学数据的组织和理解方式,它的存在已经大大加快了我们对所拥有的生物数据的整合和利用,我们应该逐步学会理解和掌握这种思想和工具。
众所周知,sequence based biology中的核心内容即是对序列的注释(annotation),其中主要包含结构注释(structural annotation)和功能注释(functional annotation),前者涉及分析序列在基因组中的具体位置以及外显子、内含子、启动子等位置,而后者则是推断序列编码产物的功能,也正是我们在六月论题中所着重探讨的。应该说,这二者是相互关联的。
随着多种生物基因组的相继解码,同时大量表达序列标签(ESTs)以及基因表达谱相关数据的积累,使得注释描述的工作量和复杂度大大增加。然而另一方面,大多数基因在不同真核生物中拥有共同的主要生物功能,通过在某些物种中获得的基因或者蛋白质(shared protein)的生物学信息,可以用以解释其他物种中对应的基因或蛋白(especially in comparative genomics)。由于这些繁复的功能信息主要是包含在积累的文献之中,如何有效的提取和综合这些信息就是我们面临的核心困难,这也是GO所要着力解决的问题。通过建立一套具有动态形式的控制字集(controlled vocabulary),来解释真核基因及蛋白在细胞内所扮演的角色,并随着生命科学研究的进步,不断积累和更新。一个ontology会被一个控制字集来描述并给予一定的名称,通过制定“本体”ontologies并运用统计学方法及自然语言处理技术,可以实现知识管理的专家系统控制。
到目前为止,Gene Ontology Consortium(GO的发起组织)的数据库中有3大独立的ontology被建立起来:biological process生物过程, molecular function分子功能及cellular component细胞组分。而这三个ontology下面又可以独立出不同的亚层次,层层向下构成一个ontologies的树型分支结构。可以说, GO是生物学的统一化工具。
联合会所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质的功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。采用阶层系统对基因进行分类,将功能一致的基因放在同一层。