Top Qs
Chronologie
Chat
Contexte

General feature format

De Wikipédia, l'encyclopédie libre

Remove ads

Le format d'élément général, general feature format (gene-finding format, generic feature format, GFF) est un format de fichier utilisé pour décrire les gènes et d'autres éléments de séquences d'ADN, d'ARN et de protéines. L'extension de fichier associée à de tels fichiers est .GFF et le type de contenu qui leur est associé est text/gff3 .

Faits en bref Type ...

Il existe deux versions du format de fichier GFF généralement utilisées :

  • General Feature Format Version 2.2 en particulier dans sa variante GTF[1]
  • Format d'entité générique version 3 (projet d'ontologie de séquence)[2]

Les serveurs qui génèrent ce format:

Davantage d’informations Serveur, Exemple de fichier ...

Les clients qui utilisent ce format:

Davantage d’informations Nom, Description ...
Remove ads

Versions GFF

Le GFF Version 2[3] (ainsi que sa variante[1] la plus commune GTF[4]) présentait un certain nombre de défauts, notamment le fait que ce format ne peut représenter que des hiérarchies d’entités à deux niveaux et ne peut donc pas gérer la hiérarchie à trois niveaux gène → transcript → exon. Le GFF3 résout ce problème et d’autres. Par exemple, il prend en charge de nombreux niveaux hiérarchiques de manière arbitraire et donne des significations spécifiques à certaines balises du champ d'attributs.

Remove ads

Structure générale du format GFF

Résumé
Contexte

Tous les formats GFF (GFF2, GFF3 et GTF) sont des fichiers tabulaires avec 9 champs par ligne, séparés par tabulation. Ils partagent tous la même structure pour les 7 premiers champs, mais diffèrent par le contenu et le format du neuvième champ. La structure générale est la suivante:

Davantage d’informations Indice de position, Nom de position ...

Le 8e champ: phase des éléments CDS

En termes simples, CDS signifie séquence de codage. La signification exacte du terme est définie par Seologia Ontology (SO). Selon la spécification GFF3[6],[7] : « Pour les éléments de type CDS, la phase indique où l'élément commence par une référence au cadre de lecture. La phase est l'un des entiers 0, 1 ou 2, indiquant le nombre de bases à supprimer du début de cet élément pour atteindre la première base du codon suivant. »

Méta Directives

Dans les fichiers GFF, des méta-informations supplémentaires peuvent être incluses et suivies après la directive ##. Cette méta-information peut détailler la version, la région de séquence ou l’espèce du GFF (la liste complète des types de métadonnées se trouve dans les spécifications de l’ontologie de séquence[2]).

Remove ads

Validation

Le projet modENCODE héberge un outil de validation[8] en GFF3[9] avec des limites généreuses de 286,10 Mo et 15 millions de lignes.

La collection de logiciels Genome Tools contient un outil gff3validator qui peut être utilisé hors ligne pour valider et éventuellement arranger les fichiers GFF3. Un service de validation en ligne[10] est également disponible.

Voir aussi

Références

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads