BAM (formát souboru)
From Wikipedia, the free encyclopedia
Remove ads
Formát souboru BAM (zkratka pro Binary Alignment Map) je formát pro ukládání rozsáhlých hrubých data sekvenování genomu.[1] Jedná se o bezztrátově komprimovanou binární reprezentaci souboru SAM, která obsahuje informace o mapování sekvencí na referenční genom.[2][3]
Formát
BAM je komprimovaná binární reprezentace SAM (Sequence Alignment Map), kompaktní a indexovatelná reprezentace zarovnání nukleotidových sekvencí.[4] Cílem indexování je rychle vyhledat alignment, který se překrývá s konkrétním místem, aniž by bylo nutné je všechny procházet. Před indexováním musí být BAM seřazen podle referenčního ID a poté podle souřadnice zcela vlevo.[5] BAM je v komprimovaném formátu BGZF.

Struktura souborů BAM zahrnuje záhlaví a zarovnávací sekci:[6]
- Hlavička – V této části jsou uvedeny název vzorku, délka vzorku a metoda alignmentu. Část se zarovnáním obsahuje záznamy o jednotlivých alignmentech, které jsou propojeny s konkrétními informacemi uvedenými v hlavičce souboru.
- Alignment – Tento soubor obsahuje název přečtené sekvence (read name), samotnou sekvenci, kvalitu přečtení, informace o zarovnání a případné vlastní značky (custom tags). Název sekvence (read name) zahrnuje také informace o referenčním chromozomu, počáteční souřadnici zarovnání, kvalitě zarovnání a řetězec popisující shodu (match descriptor, tzv. CIGAR string).
- Sekce alignment obsahuje následující:
- Read group (RG) - skupina sekvencí
- Barcode tag (BC) - čárový kód
- Single-end alignment quality (SM) - kvalita zarovnání nepárových sekvencí
- Paired-end alignment quality (AS) - kvalita zarovnání párových sekvencí
- Edit distance tag (NM) - počet rozdílů mezi sekvencí a referencí
- Amplicon name tag (XN) - název amplikonu
- Sekce alignment obsahuje následující:
Formát BAM používá souřadnicový systém začínající nulou (0-based), zatímco formát SAM používá souřadnicový systém začínající jedničkou (1-based). Formát BAM dokáže reprezentovat hodnoty v rozsahu [−231, 232).[5]
Remove ads
Nástroje
Seznam sekvenačních a analytických nástrojů, které pracují s formáty SAM/BA, najdete zde .
Související články
Externí odkazy
Reference
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads