BAM (formát souboru)

From Wikipedia, the free encyclopedia

Remove ads

Formát souboru BAM (zkratka pro Binary Alignment Map) je formát pro ukládání rozsáhlých hrubých data sekvenování genomu.[1] Jedná se o bezztrátově komprimovanou binární reprezentaci souboru SAM, která obsahuje informace o mapování sekvencí na referenční genom.[2][3]

Formát

BAM je komprimovaná binární reprezentace SAM (Sequence Alignment Map), kompaktní a indexovatelná reprezentace zarovnání nukleotidových sekvencí.[4] Cílem indexování je rychle vyhledat alignment, který se překrývá s konkrétním místem, aniž by bylo nutné je všechny procházet. Před indexováním musí být BAM seřazen podle referenčního ID a poté podle souřadnice zcela vlevo.[5] BAM je v komprimovaném formátu BGZF.

Thumb
Formát BAM; obrázek z: https://samtools.github.io/hts-specs/SAMv1.pdf

Struktura souborů BAM zahrnuje záhlaví a zarovnávací sekci:[6]

  • Hlavička – V této části jsou uvedeny název vzorku, délka vzorku a metoda alignmentu. Část se zarovnáním obsahuje záznamy o jednotlivých alignmentech, které jsou propojeny s konkrétními informacemi uvedenými v hlavičce souboru.
  • Alignment – Tento soubor obsahuje název přečtené sekvence (read name), samotnou sekvenci, kvalitu přečtení, informace o zarovnání a případné vlastní značky (custom tags). Název sekvence (read name) zahrnuje také informace o referenčním chromozomu, počáteční souřadnici zarovnání, kvalitě zarovnání a řetězec popisující shodu (match descriptor, tzv. CIGAR string).
    • Sekce alignment obsahuje následující:
      • Read group (RG) - skupina sekvencí
      • Barcode tag (BC) - čárový kód
      • Single-end alignment quality (SM) - kvalita zarovnání nepárových sekvencí
      • Paired-end alignment quality (AS) - kvalita zarovnání párových sekvencí
      • Edit distance tag (NM) - počet rozdílů mezi sekvencí a referencí
      • Amplicon name tag (XN) - název amplikonu

Formát BAM používá souřadnicový systém začínající nulou (0-based), zatímco formát SAM používá souřadnicový systém začínající jedničkou (1-based). Formát BAM dokáže reprezentovat hodnoty v rozsahu [−231, 232).[5]

Remove ads

Nástroje

Seznam sekvenačních a analytických nástrojů, které pracují s formáty SAM/BA, najdete zde .

Související články

Externí odkazy

Reference

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads