Gene Ontology
From Wikipedia, the free encyclopedia
Remove ads
Gene Ontology, abreviada como GO (Ontoloxía Xénica), é unha importante iniciativa bioinformática para unificar a representación dos atributos dos xenes e produtos xénicos de todas as especies de seres vivos.[1] O proxecto ten os seguintes obxectivos concretos: 1) Manter e desenvolver o seu vocabulario controlado de atributos de xenes e produtos xénicos; 2) anotar xenes e produtos xénicos, e asimilar e diseminar os datos de anotación; e 3) proporcionar ferramentas para un acceso doado a todos os aspectos dos datos proporcionados polo proxecto, e permitir a interpretación funcional de datos experimentais usando o GO, por exemplo por medio da análise de enriquecemento.
GO forma parte dun grande esforzo de clasificación, chamado Open Biomedical Ontologies (OBO).[2] Contén as ferramentas de busca AmiGO e OBO-Edit
Aínda que de modo xeral a nomenclatura de xenes pretende manter e desenvolver un vocabulario controlado de xenes e produtos xénicos, a ontoloxía xénica, en concreto, amplía os esforzos usando unha linguaxe de marcas para facer que os datos (e non só os de xenes e os seus produtos senón tamén de todos os atributos) sexan lexibles por máquinas, e para facer isto de modo unificado para todas as especies (mentres que as convencións da nomenclatura de xenes varía segundo o taxon biolóxico).
Remove ads
Termos e ontoloxía
Desde un punto de vista práctico, unha ontoloxía é unha representación de algo que se coñece. As “ontoloxías" consisten nunha representación de cousas que son detectables ou directamente observables, e as relacións entre ditas cousas. Non hai unha terminoloxía universal estándar en bioloxía e dominios relacionados, e os usos dos termos poden ser específicos dunha especie, áreas de investigación ou mesmo dun grupo investigador determinado. Isto fai que a comunicación e compartición de datos sexa máis difícil. O proxecto Gene Ontology proporciona unha ontoloxía de termos definidos que representan as propiedades dos produtos xénicos. A ontoloxía abrangue tres dominios:
- compoñentes celulares, as partes da célula ou o seu ambiente extracelular;
- funcións moleculares, as actividades elementais dun produto xénico a nivel molecular, como a unión a outras moléculas ou a catálise;
- procesos biolóxicos, operacións ou conxuntos de eventos moleculares cun comezo e final definidos, pertinentes a unidades vivas integradas ou en funcionamento: células, tecidos, órganos, e organismos.
Cada termo de GO da ontoloxía ten un nome de termo, que pode ser unha palabra ou unha cadea de palabras; un único identificador alfanumérico; unha definición con fontes citadas; e un espazo de nome (namespace) que indica o domino ao que pertence. Os termos poden tamén ter sinónimos, os cales están clasificados como exactamente equivalentes ao nome de termo, cun significado máis amplo, máis estreito ou relacionado; referencias a conceptos equivalentes noutras bases de datos; e comentarios sobre o uso dos termos. A ontoloxía GO está estruturada como un gráfico acíclico dirixido, e cada termo ten relacións definidas cou outro ou outros termos do mesmo dominio, e ás veces doutros dominios. O vocabulario GO está deseñado para ser neutral con respecto da especie, e inclúe termos aplicables a procariotas e eucariotas, organismos unicelulares e multicelulares.
GO non é estático, e as adcións, correccións e alteracións son suxeridas e solicitada por membros de comunidades científicas que se dedican á anotación e investigación, e tamén polos que están directamente implicados no proxecto GO. Por exemplo, un anotador pode requirir un termo específico para representar unha vía metabólica, ou unha sección da ontoloxía pode ser revisada coa axuda de expertos da comunidade (por exemplo [3]). As edicións suxeridas son revisadas polos editores de ontoloxías, e aplicadas cando é apropiado.
O ficheiro da ontoloxía GO está dispoñible gratuitamente na páxina web de GO[4] en varios formatos, ou pode accederse a ela en liña usando o buscador GO AmiGO. O proxdecto Gene Ontology tamén proporciona mapados descargables dos seus termos para outros sistemas de clasificación.
Exemplo de termo
- id: GO:0000016
- nome: lactase activity (actividade de lactase)
- espazo de nome (namespace): molecular_function
- def: "Catálise da reacción: lactosa + H2O = D-glicosa + D-galactosa." [EC:3.2.1.108]
- sinónimo: "lactase-phlorizin hydrolase activity" (acitividade de lactase-florticina hidrolase) AMPLO [EC:3.2.1.108]
- sinónimo: "lactose galactohydrolase activity" (actividade de lactosa galactrohidrolase) EXACTO [EC:3.2.1.108]
- xref: EC:3.2.1.108
- xref: MetaCyc:LACTASE-RXN
- xref: Reactome:20536
- is_a: GO:0004553 ! actividade de hidrolase, hidrolizando compostos O-glicosilo
Fonte de datos:[5]
Remove ads
Anotación
A anotación do xenoma é a práctica de capturar datos sobre un produto xénico, e as anotacións GO usan termos da ontoloxía GO para facelo. Os membros do Consorcio GO envían as súas anotacións para que se integren e diseminen na páxina web de GO, desde onde poden ser descargadas directamente ou vistas en liña usando AmiGO. Ademais do identificador do produto xénico e do termo GO relevante, as anotacións GO teñen os seguintes datos: A referencia utilizada para facer a anotación (por exemplo, un artigo de revista científica; Un código de evidencias que indica o tipo de evidencias probatorias sobre as que se basea a anotación en cuestión; Os datos e o creador da anotación.
O código de evidencias procede da Ontoloxía do Código de Evidencias, que é un vocabulario controlado de códigos que abranguen métodos de anotación manuais e automáticos. Por exemplo, o termo Traceable Author Statement (TAS ou Afirmación de Autor Rastrexable) significa que un curador leu un artigo científico publicado e os metadatos desa anotación levan unha cita de dito artigo; Inferred from Sequence Similarity (ISS ou Inferido da Semellanza de Secuencia) significa que un curador humano revisou os datos de saída dunha busca de semellanza de secuencias e verificou que é bioloxicamente significativa. Ás anotacións dos procesos automatizados (por exemplo, remapar anotacións creadas usando outro vocabulario de anotación) dáselle o código Inferred from Electronic Annotation (IEA ou Inferido de Anotación Electrónica). O 1 de abril de 2010, o 98% de todas as anotacións GO eran inferidas computacionalmente, non por curadores.[6] Como esas anotacións non están comprobadas por unha persoa, o Consorcio GO considéraas menos fiables e inclúe só unha parte delas nos datos dispoñibles en liña en AmiGO. Os conxuntos de datos de anotacións completos poden descargarse da páxina web de GO. Para apoiar o desenvolvemento da anotación, o ConsorcioGO proporciona campamentos de estudo e mentores para novos grupos de desenvolvedores.
Exemplo de anotación
Produto xénico: Actin, alpha cardiac muscle 1, (actina de músculo cardíaco alfa) UniProtKB:P68032
- Termo GO: contracción muscular ; GO:0060047 (proceso biolóxico)
- Código de evidencia: Inferred from Mutant Phenotype (IMP ou Inferido do Fenotipo Mutante )
- Referencia: PMID 17611253
- Asignado por: UniProtKB, 6 de xuño de 2008
Fonte de datos:[7]
Remove ads
Ferramentas
Hai un gran número de ferramentas dispoñibles[8] tanto en liña coma para descargar que usan os datos proporcionados polo proxecto GO. A gran maioría destes proceden de terceiras partes; o Consorcio GO desenvolve e apoia dúas ferramentas, AmiGO e OBO-Edit.
AmiGO[9] é unha aplicación baseada en web que permite aos usuarios consultar, buscar e visualizar ontoloxías e datos de anotacións de produtos xénicos. Ademais, ten tamén unha ferramenta BLAST,[10] ferramentas que permiten a análise de grandes conxuntos de datos,[11][12] e unha interface para consultar a base de datos GO directamente.[13]
AmiGO pode utilizarse en liña na páxina web de GO para acceder aos datos proporcionados polo Consorcio GO, ou pode descargarse e instalarse para o seu uso local en calquera base de datos que empregue o esquema da base de datos GO (por exemplo [14]). É unha fonte de sotware de código aberto e está dispoñible como parte da distribución de software go-dev.[15]
OBO-Edit[16] é un editor de ontoloxías independente de plataforma de código aberto desenvolvido e mantido polo Consorcio Gene Ontology. Utiliza a linguaxe de programación Java, e usa unha estratexia orientada a gráficos para mostrar e editar as ontoloxías. OBO-Edit inclúe unha busca comprensiva e interface de filtro, coa opción de facer subconxuntos de termos que se visualizan; a interface de usuario pode tamén personalizarse segundo as preferencias do usuario. OBO-Edit tamén ten un razoador semántico que pode inferir ligazóns que non foron explicitamente establecidas, baseándose nas relacións existentes e as súas propiedades. Aínda que foi desenvolvido para ontoloxías biomédicas, OBO-Edit pode utilizarse para ver, procurar e editar calquera ontoloxía. Esta dispoñible gratuitamente para a súa descarga.[15]
Consorcio
O Consorcio Gene Ontology é o conxunto de bases de datos biolóxicas e grupos de investigación que están implicados activamente no proxecto de ontoloxía de xenes.[17] Inclúe varias bases de datos de organismos modelo e bases de datos de proteínas de múltiples especies, grupos de desenvolvemento de programas informáticos aplicables, e unha oficina editorial.
Historia
Gene Ontology foi construído orixinalmente en 1998 por un consorciode investigadores que estudaban o xenoma de tres organismos modelo: Drosophila melanogaster (a mosca do vinagre), Mus musculus (rato caseiro), e Saccharomyces cerevisiae (lévedo de panadería).[18] Despois uníronse ao consorcio GO moitas outras bases de datos de organismos modelo, contribuíndo non só con datos de anotacións, senón tamén co desenvolvemento de ontoloxías e ferramentas para ver e aplicar os datos. Ata agora, a maioría das principais bases de datos de plantas, animais e microorganismos están a facer unha contribución a este proxecto. En xaneiro de 2008, GO contiña uns 24.500 termos aplicables a unha ampla variedade de organismos biolóxicos. Hai un corpo significativo de literatura para o desenvolvemento e uso de GO, e converteuse nunha ferramenta estándar no arsenal da bioinformática. Os seus obxectivos abranguen tres aspectos: a construción dun ontoloxía xénica, axudar á ontoloxía de xenes/produtos xénicos e desenvolver programas informáticos e bases de datos para os dous anteriores obxectivos.
Remove ads
Notas
Véxase tamén
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads