Top Qs
Línea de tiempo
Chat
Contexto

Formato Variant Call

De Wikipedia, la enciclopedia libre

Formato Variant Call
Remove ads

El Variant Call Format (VCF, formato de llamado de variantes) es un formato de texto que se usa en Bioinformática para almacenar variantes de una o varias secuencias de genes respecto a un genoma de referencia. Este formato se ha desarrollado a la luz de los grandes proyectos de secuenciación del ADN y genotipado, como el Proyecto 1000 Genomas. Otros formatos para almacenar datos genéticos como el General feature format (GFF), almacena todos los datos genéticos pero muchos de ellos son redundantes, al compartirse a lo largo de los genomas. En cambio, en el formato VCF sólo se almacenan las variantes genéticas respecto al genoma de referencia.

Datos rápidos Desarrollador, Información general ...
Remove ads
Thumb
Demostrando la diferencia entre los formatos BCF binario y VCF.

La versión actual es la 4.3,[1][2] aunque el Proyecto 1000 Genomas ha desarrollado sus propias especificaciones para variación estructural como duplicaciones y rearreglos genómicos, que son difíciles de acomodar en el esquema existente.[3] También existen un grupo de herramientas para editar y manipular los ficheros VCF.[4]

Remove ads

Ejemplo

##fileformat=VCFv4.0
##fileDate=20110705
##reference=1000GenomesPilot-NCBI37
##phasing=partial
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency">
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">
##FILTER=<ID=q10,Description="Quality below 10">
##FILTER=<ID=s50,Description="Less than 50% of samples have data">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">
#CHROM POS    ID        REF  ALT     QUAL FILTER INFO                              FORMAT      Sample1        Sample2        Sample3
2      4370   rs6057    G    A       29   .      NS=2;DP=13;AF=0.5;DB;H2           GT:GQ:DP:HQ 0|0:48:1:52,51 1|0:48:8:51,51 1/1:43:5:.,.
2      7330   .         T    A       3    q10    NS=5;DP=12;AF=0.017               GT:GQ:DP:HQ 0|0:46:3:58,50 0|1:3:5:65,3   0/0:41:3
2      110696 rs6055    A    G,T     67   PASS   NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2   2/2:35:4
2      130237 .         T    .       47   .      NS=2;DP=16;AA=T                   GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:56,51 0/0:61:2
2      134567 microsat1 GTCT G,GTACT 50   PASS   NS=2;DP=9;AA=G                    GT:GQ:DP    0/1:35:4       0/2:17:2       1/1:40:3
Remove ads

Cabeceras de VCF

Las cabeceras inician el archivo y proveen metadatos describiendo el contenido del archivo. Las líneas de cabecera son indicadas con una almohadilla (#) al inicio de la línea. Palabras clave en la cabecera son denotadas con ##. Algunas palabras clave recomendadas son fileformat, fileDate y reference.

La cabecera contiene palabras clave opcionales que semántica o sintácticamente describen los campos usados en el cuerpo del archivo, entre los cuales destacan INFO, FILTER y FORMAT (ver abajo).

Remove ads

Columnas de un VCF

Resumir
Contexto

El cuerpo de un archivo VCF sigue a la cabecera y está separado por tabuladores en 8 columnas obligatorias y puede contener un número ilimitado de columnas opcionales las cuales pueden ser empleadas para registrar otra información relativa a la(s) muestra(s). Cuando columnas adicionales son empleadas, la primera columna opcional es usada para describir el formato de los datos en las columnas subsecuentes.

Más información Nombre, Breve descripción (revisar las especificaciones para más detalles). ...

Campos INFO comunes

Resumir
Contexto

Etiquetas arbitrarias son permitidas por el formato, sin embargo las siguientes etiquetas están reservadas:[1]

Más información Etiqueta, Breve descripción ...

Cualquier otro campo INFO es definido en la cabecera del archivo vcf.

Remove ads

Campos FORMAT comunes

Más información Nombre, Breve descripción ...

Cualquier otro campo FORMAT es definido en la cabecera del archivo vcf.

Remove ads

Referencias

Enlaces externos

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads