Top Qs
Chronologie
Chat
Contexte

Variant Call Format

format d'un fichier texte utilisé en bioinformatique pour stocker les variations de séquences génétiques De Wikipédia, l'encyclopédie libre

Variant Call Format
Remove ads

Le Variant Call Format ou VCF est un format d'un fichier texte utilisé en bioinformatique pour stocker les variations de séquences génétiques. Le format VCF est développé en 2010 pour le Projet 1000 Genomes et est depuis utilisé par d'autres projets de génotypage et de séquençage de l'ADN à grande échelle[1],[2]. Les formats préexistants pour stocker les séquences génétiques, tels que le format général des caractéristiques (GFF), conservaient des données redondantes car partagées entre les génomes. Le format VCF permet de ne stocker que la différence ou l'absence de différence par rapport à un génome de référence et, est un format de sortie courant pour les programmes d'appel de variants en raison de sa simplicité relative et de son évolutivité[3],[4].

Faits en bref Extension, PUID ...

La norme est actuellement la version 4.5[5],[6], bien que le Projet 1000 Genomes a développé sa propre spécification pour les variations structurelles telles que les duplications, qui ne sont pas facilement prises en compte dans le schéma existant[7].

D'autres formats de fichiers ont été développés sur la base du VCF, notamment leGenomic VCF (gVCF). gVCF est un format étendu qui comprend des informations supplémentaires sur les « blocs » qui correspondent à la référence et sur leurs qualités[8]. Un ensemble d'outils est également disponible pour l'édition et la manipulation des fichiers[9],[10], notamment VCFtools, qui a été publié en même temps que le format VCF en 2011, et BCFtools, qui a été inclus dans SAMtools jusqu'à ce qu'il soit divisé en un package indépendant en 2014[1],[11]..

Remove ads

Exemple

##fileformat=VCFv4.3
##fileDate=20090805
##source=myImputationProgramV3.1
##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta
##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x>
##phasing=partial
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">
##FILTER=<ID=q10,Description="Quality below 10">
##FILTER=<ID=s50,Description="Less than 50% of samples have data">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">
#CHROM POS      ID         REF   ALT    QUAL  FILTER   INFO                             FORMAT       NA00001         NA00002          NA00003
20     14370    rs6054257  G     A      29    PASS    NS=3;DP=14;AF=0.5;DB;H2           GT:GQ:DP:HQ  0|0:48:1:51,51  1|0:48:8:51,51   1/1:43:5:.,.
20     17330    .          T     A      3     q10     NS=3;DP=11;AF=0.017               GT:GQ:DP:HQ  0|0:49:3:58,50  0|1:3:5:65,3     0/0:41:3
20     1110696  rs6040355  A     G,T    67    PASS    NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ  1|2:21:6:23,27  2|1:2:0:18,2     2/2:35:4
20     1230237  .          T     .      47    PASS    NS=3;DP=13;AA=T                   GT:GQ:DP:HQ  0|0:54:7:56,60  0|0:48:4:51,51   0/0:61:2
20     1234567  microsat1  GTC   G,GTCT 50    PASS    NS=3;DP=9;AA=G                    GT:GQ:DP     0/1:35:4        0/2:17:2         1/1:40:3
Thumb
Démonstration de la différence entre les formats binaires BCF et VCF.
Remove ads

En-tête d'un fichier VCF

L'en-tête commence le fichier et fournit des métadonnées décrivant le corps du fichier. Les lignes d'en-tête sont indiquées comme commençant par# . Les mots-clés spéciaux dans l'en-tête sont indiqués par ## . Les mots clés recommandés incluent fileformat, fileDate et reference.

L'en-tête contient des mots-clés qui décrivent éventuellement sémantiquement et syntaxiquement les champs utilisés

Colonnes d'un fichier VCF

Résumé
Contexte

Le corps du VCF suit l'en-tête, et est séparé par une tabulation en 8 colonnes obligatoires et un nombre illimité de colonnes optionnelles qui peuvent être utilisées pour enregistrer d'autres informations sur le ou les échantillons. Lorsque des colonnes supplémentaires sont utilisées, la première colonne facultative est utilisée pour décrire le format des données dans les colonnes suivantes.

Davantage d’informations Nom, Brève description (voir les spécifications pour plus de détails). ...
Remove ads

Champs de la section INFO fréquemment utilisés

Résumé
Contexte

Les clés arbitraires sont autorisées, bien que les sous-champs suivants soient réservés (mais facultatifs)[5] :

Davantage d’informations Nom, Brève description ...

Tous les autres champs d'informations sont définis dans l'en-tête .vcf.

Remove ads

Champs de la section FORMAT fréquemment utilisés

Davantage d’informations Nom, Brève description ...

Tous les autres champs de format sont définis dans l'en-tête .vcf.

La spécification VCF n'est plus maintenue par le Projet 1000 Genomes. En effet, les variations structurelles telles que les duplications ne sont pas gérées par le format VCF de manière optimale[13]. Le groupe qui dirige la gestion et l'expansion du format est l'équipe de format de fichier du flux de travail à grande échelle de l'Alliance mondiale pour la génomique et la santé (GA4GH)[14],[15].

Remove ads

Voir aussi

  • Le format FASTA, utilisé pour représenter les séquences du génome.
  • Le format FASTQ, utilisé pour représenter les lectures du séquenceur d'ADN ainsi que les scores de qualité.
  • Le format SAM, utilisé pour représenter les lectures du séquenceur du génome qui ont été alignées sur les séquences du génome.
  • Le format GVF (Genome Variation Format) est une extension basée sur le format GFF3.

Notes et références

Liens externes

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads