热门问题
时间线
聊天
视角
BED (文件格式)
来自维基百科,自由的百科全书
Remove ads
BED(Browser Extensible Data,字面意思是“(基因组)浏览器可延展数据”)是一种基因组学中用于表示、标记基因组区域位置信息中的文件格式,于人类基因组计划中首次出现[1]。BED文件是目前基因组学事实上的标准格式之一。
格式
引入BED格式的人类基因组计划并未详细规范BED文件格式,因此一般较通用加州大学圣克鲁兹分校(UCSC)基因组浏览器中的描述文件[2]。2021年,全球基因组学与健康联盟(GA4GH)发布了首份BED文件格式的规范文件[3][4]。
BED文件最少需要有3个分别表示区域染色体序号、起始位置,以及终止位置的列,根据不同需求可增加至12列记录更多信息。一般来说,不同的列之间应以制表符分隔值(\t)隔开,且每一行的列数必须相同[5]。
下表介绍BED文件每一列应该存储的信息。三个必须出现的列标记为红色。
Remove ads
一部分BED文件会具有一些与BED文件本身无关的头行文件,一般包含以下信息
- "browser":与UCSC基因组浏览器设置相关的参数
- "track": 与基因组浏览器中可视化参数设置相关
- "#":注释内容,内容任意
文件扩展名
BED文件的扩展名一般为“.bed”。有时候,也根据列数的不同标注为“.bed3”(有3列的BED文件)、“.bed6”(有6列的BED文件)等等[6]。
例子
以下为一个含有最基本3列信息的BED文件范例:
chr7 127471196 127472363 chr7 127472363 127473530 chr7 127473530 127474697
以下是另一个BED文件的范例,UCSC基因组浏览器提供的BED文件一般都是这种格式。头三行是UCSC基因组浏览器的设置参数,与BED文件本身无关。
browser position chr7:127471196-127495720 browser hide all track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On" chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0 chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0 chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0 chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0 chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255 chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255 chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255 chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0 chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255
Remove ads
.genome格式
genome文件是一种有时与BED文件配合使用的文件。这种文件含有两列,第一列是染色体序号、第二列表示这条染色体的长度。genome文件主要是确保BED文件表示的区域不会位于染色体应有的长度之外。
chrom size chr1 248956422 chr2 242193529 chr3 198295559 chr4 190214555 chr5 181538259 chr6 170805979 chr7 159345973 ...
参见
- SAM (文件格式)
- GTF文件
参考资料
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads