SAM (formát souboru)
From Wikipedia, the free encyclopedia
Remove ads
Mapa aligmentu sekvencí (Sequence Alignment Map; SAM) je textový formát původně pro ukládání biologických sekvencí zarovnaných s referenční sekvencí, který vyvinuli Heng Li, Bob Handsaker a kolektiv. [1] Byl vyvinut, když se projekt 1000 Genomes Project rozhodl opustit formát MAQ mapper a navrhnout nový formát. Celkový charakter formátu odděleného tabulátory (TAB) vychází z dřívějšího formátu inspirovaného PSL od BLAT. Název SAM pochází od Gabora Martha z Utažské univerzity, který původně měl formát se stejným názvem, ale s jinou syntaxí, která se více podobala výstupu BLAST . [2] Je široce používán pro ukládání dat, jako jsou nukleotidové sekvence, generované sekvenčními technologiemi nové generace, a standard byl rozšířen tak, aby zahrnoval i nemapované sekvence. Formát podporuje krátké i dlouhé ready (až 128 Mbp [3]) produkované různými sekvenčními platformami a používá se k uchovávání mapovaných dat v rámci sady nástrojů pro analýzu genomu (GATK) a napříč Broad Institute, Wellcome Sanger Institute a v rámci 1000 Genomes Project .
Remove ads
Formát
Formát SAM se skládá ze hlavičky a sekce alignmentu. [1] Binárním ekvivalentem souboru SAM je soubor Binary Alignment Map (BAM), který ukládá stejná data v komprimované binární podobě. [4] Soubory SAM lze analyzovat a upravovat pomocí softwaru SAMtools . [1] Pokud existuje hlavička, musí předcházet sekci alignmentu. Nadpisy začínají symbolem '@', který je odlišuje od sekce alignmentu. Sekce alignmentu má 11 povinných polí a proměnný počet volitelných polí. [1]
Povinná pole
Volitelná pole
Podle specifikace volitelných polí pro zarovnání/mapování sekvencí (SAMtags) [5] může mít pole jeden z následujících typů: Typ může být jeden z A (znak), C (celé číslo 0–255), f (reálné číslo), H (hexadecimální pole), i (celé číslo) nebo Z (řetězec). Může se jednat o jednu hodnotu nebo B (obecné pole).
Remove ads
Související články
Reference
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads