Top Qs
Chronologie
Chat
Contexte
Variant Call Format
format d'un fichier texte utilisé en bioinformatique pour stocker les variations de séquences génétiques De Wikipédia, l'encyclopédie libre
Remove ads
Le Variant Call Format ou VCF est un format d'un fichier texte utilisé en bioinformatique pour stocker les variations de séquences génétiques. Le format VCF est développé en 2010 pour le Projet 1000 Genomes et est depuis utilisé par d'autres projets de génotypage et de séquençage de l'ADN à grande échelle[1],[2]. Les formats préexistants pour stocker les séquences génétiques, tels que le format général des caractéristiques (GFF), conservaient des données redondantes car partagées entre les génomes. Le format VCF permet de ne stocker que la différence ou l'absence de différence par rapport à un génome de référence et, est un format de sortie courant pour les programmes d'appel de variants en raison de sa simplicité relative et de son évolutivité[3],[4].
La norme est actuellement la version 4.5[5],[6], bien que le Projet 1000 Genomes a développé sa propre spécification pour les variations structurelles telles que les duplications, qui ne sont pas facilement prises en compte dans le schéma existant[7].
D'autres formats de fichiers ont été développés sur la base du VCF, notamment leGenomic VCF (gVCF). gVCF est un format étendu qui comprend des informations supplémentaires sur les « blocs » qui correspondent à la référence et sur leurs qualités[8]. Un ensemble d'outils est également disponible pour l'édition et la manipulation des fichiers[9],[10], notamment VCFtools, qui a été publié en même temps que le format VCF en 2011, et BCFtools, qui a été inclus dans SAMtools jusqu'à ce qu'il soit divisé en un package indépendant en 2014[1],[11]..
Remove ads
Exemple
##fileformat=VCFv4.3 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta ##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x> ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,. 20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3 20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4 20 1230237 . T . 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2 20 1234567 microsat1 GTC G,GTCT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3

Remove ads
En-tête d'un fichier VCF
L'en-tête commence le fichier et fournit des métadonnées décrivant le corps du fichier. Les lignes d'en-tête sont indiquées comme commençant par# . Les mots-clés spéciaux dans l'en-tête sont indiqués par ## . Les mots clés recommandés incluent fileformat, fileDate et reference.
L'en-tête contient des mots-clés qui décrivent éventuellement sémantiquement et syntaxiquement les champs utilisés
Colonnes d'un fichier VCF
Résumé
Contexte
Le corps du VCF suit l'en-tête, et est séparé par une tabulation en 8 colonnes obligatoires et un nombre illimité de colonnes optionnelles qui peuvent être utilisées pour enregistrer d'autres informations sur le ou les échantillons. Lorsque des colonnes supplémentaires sont utilisées, la première colonne facultative est utilisée pour décrire le format des données dans les colonnes suivantes.
Remove ads
Champs de la section INFO fréquemment utilisés
Résumé
Contexte
Les clés arbitraires sont autorisées, bien que les sous-champs suivants soient réservés (mais facultatifs)[5] :
Tous les autres champs d'informations sont définis dans l'en-tête .vcf.
Remove ads
Champs de la section FORMAT fréquemment utilisés
Tous les autres champs de format sont définis dans l'en-tête .vcf.
La spécification VCF n'est plus maintenue par le Projet 1000 Genomes. En effet, les variations structurelles telles que les duplications ne sont pas gérées par le format VCF de manière optimale[13]. Le groupe qui dirige la gestion et l'expansion du format est l'équipe de format de fichier du flux de travail à grande échelle de l'Alliance mondiale pour la génomique et la santé (GA4GH)[14],[15].
Remove ads
Voir aussi
- Le format FASTA, utilisé pour représenter les séquences du génome.
- Le format FASTQ, utilisé pour représenter les lectures du séquenceur d'ADN ainsi que les scores de qualité.
- Le format SAM, utilisé pour représenter les lectures du séquenceur du génome qui ont été alignées sur les séquences du génome.
- Le format GVF (Genome Variation Format) est une extension basée sur le format GFF3.
Notes et références
Liens externes
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads
