热门问题
时间线
聊天
视角
BED (文件格式)
来自维基百科,自由的百科全书
Remove ads
BED(Browser Extensible Data,字面意思是「(基因組)瀏覽器可延展數據」)是一種基因組學中用於表示、標記基因組區域位置信息中的文件格式,於人類基因組計劃中首次出現[1]。BED文件是目前基因組學事實上的標準格式之一。
格式
引入BED格式的人類基因組計劃並未詳細規範BED文件格式,因此一般較通用加州大學聖克魯茲分校(UCSC)基因組瀏覽器中的描述文件[2]。2021年,全球基因組學與健康聯盟(GA4GH)發布了首份BED文件格式的規範文件[3][4]。
BED文件最少需要有3個分別表示區域染色體序號、起始位置,以及終止位置的列,根據不同需求可增加至12列記錄更多信息。一般來說,不同的列之間應以制表符分隔值(\t)隔開,且每一行的列數必須相同[5]。
下表介紹BED文件每一列應該存儲的信息。三個必須出現的列標記為紅色。
Remove ads
一部分BED文件會具有一些與BED文件本身無關的頭行文件,一般包含以下信息
- "browser":與UCSC基因組瀏覽器設置相關的參數
- "track": 與基因組瀏覽器中可視化參數設置相關
- "#":注釋內容,內容任意
文件擴展名
BED文件的擴展名一般為「.bed」。有時候,也根據列數的不同標註為「.bed3」(有3列的BED文件)、「.bed6」(有6列的BED文件)等等[6]。
例子
以下為一個含有最基本3列信息的BED文件範例:
chr7 127471196 127472363 chr7 127472363 127473530 chr7 127473530 127474697
以下是另一個BED文件的範例,UCSC基因組瀏覽器提供的BED文件一般都是這種格式。頭三行是UCSC基因組瀏覽器的設置參數,與BED文件本身無關。
browser position chr7:127471196-127495720 browser hide all track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On" chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0 chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0 chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0 chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0 chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255 chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255 chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255 chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0 chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255
Remove ads
.genome格式
genome文件是一種有時與BED文件配合使用的文件。這種文件含有兩列,第一列是染色體序號、第二列表示這條染色體的長度。genome文件主要是確保BED文件表示的區域不會位於染色體應有的長度之外。
chrom size chr1 248956422 chr2 242193529 chr3 198295559 chr4 190214555 chr5 181538259 chr6 170805979 chr7 159345973 ...
參見
- SAM (文件格式)
- GTF文件
參考資料
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads