SAM (formát souboru)

From Wikipedia, the free encyclopedia

Remove ads

Mapa aligmentu sekvencí (Sequence Alignment Map; SAM) je textový formát původně pro ukládání biologických sekvencí zarovnaných s referenční sekvencí, který vyvinuli Heng Li, Bob Handsaker a kolektiv. [1] Byl vyvinut, když se projekt 1000 Genomes Project rozhodl opustit formát MAQ mapper a navrhnout nový formát. Celkový charakter formátu odděleného tabulátory (TAB) vychází z dřívějšího formátu inspirovaného PSL od BLAT. Název SAM pochází od Gabora Martha z Utažské univerzity, který původně měl formát se stejným názvem, ale s jinou syntaxí, která se více podobala výstupu BLAST . [2] Je široce používán pro ukládání dat, jako jsou nukleotidové sekvence, generované sekvenčními technologiemi nové generace, a standard byl rozšířen tak, aby zahrnoval i nemapované sekvence. Formát podporuje krátké i dlouhé ready (až 128 Mbp [3]) produkované různými sekvenčními platformami a používá se k uchovávání mapovaných dat v rámci sady nástrojů pro analýzu genomu (GATK) a napříč Broad Institute, Wellcome Sanger Institute a v rámci 1000 Genomes Project .

Remove ads

Formát

Formát SAM se skládá ze hlavičky a sekce alignmentu. [1] Binárním ekvivalentem souboru SAM je soubor Binary Alignment Map (BAM), který ukládá stejná data v komprimované binární podobě. [4] Soubory SAM lze analyzovat a upravovat pomocí softwaru SAMtools . [1] Pokud existuje hlavička, musí předcházet sekci alignmentu. Nadpisy začínají symbolem '@', který je odlišuje od sekce alignmentu. Sekce alignmentu má 11 povinných polí a proměnný počet volitelných polí. [1]

Povinná pole

Další informace Sloup, Pole ...

Volitelná pole

Podle specifikace volitelných polí pro zarovnání/mapování sekvencí (SAMtags) [5] může mít pole jeden z následujících typů: Typ může být jeden z A (znak), C (celé číslo 0–255), f (reálné číslo), H (hexadecimální pole), i (celé číslo) nebo Z (řetězec). Může se jednat o jednu hodnotu nebo B (obecné pole).

Remove ads

Související články

  • Formát FASTA, používaný k reprezentaci genomových sekvencí
  • Formát FASTQ, používaný k reprezentaci čtení sekvencerů DNA spolu se skóre kvality
  • Formát GVF (Genome Variation Format), rozšíření založené na formátu GFF3
  • Formát BAM
  • SAMtools

Reference

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads