SOPs/coordinates – BaRC Wikihttp://barcwiki.wi.mit.edu/wiki/SOPs/coordinates
文件,就是把测序reads比对到参考基因组后的文件!bam或者bed格式的文件主要是为了追踪我们的reads到底比对到了参加基因组的什么区域,而UCSC规定的这几个文件格式(wig、bigWig和bedgraph)用处不一样,仅仅是为了追踪参考基因组的各个区域的覆盖度,测序深度!而且这些定义好的文件,可以无缝连接到UCSC的Genome Browser工具里面进行可视化!
这个网站提供了这几种数据格式的构造及转换脚本:SOPs/coordinates – BaRC Wiki
BED、WIG、BIGWIG和BEDGRAPH文件的比较
文件格式
数据类型
存储方式
应用场景
BED
基因组区域
文本
基因组注释、ChIP-seq、ATAC-seq等
WIG
连续测量值
文本
基因表达、DNA甲基化、染色质可及性等
BIGWIG
连续测量值
压缩
基因表达、DNA甲基化、染色质可及性等
BEDGRAPH
连续测量值
文本
基因表达、DNA甲基化、染色质可及性等
BAM文件是生物信息学中广泛使用的文本文件格式,用于存储高通量测序数据(如DNA-seq、RNA-seq和ChIP-seq)的比对结果。BAM文件通常由一个或多个比对结果组成,每个比对结果由一个或多个读取组成。
BAM文件的基本结构
BAM文件由一个或多个“记录”组成,每个记录描述一个比对结果或读取。记录由以下字段组成:
染色体名称(Reference Name):描述比对结果或读取所在的染色体的名称或编号。
起始位置(Start):比对结果或读取的起始坐标,通常是以0-based的方式表示。
结束位置(End):比对结果或读取的结束坐标,也是0-based。
碱基序列(Bases):比对结果或读取的碱基序列。
质量值(Qualities):比对结果或读取的质量值。
附加信息(Auxiliary Information):比对结果或读取的附加信息,如比对得分、信任度等。
1 BAM文件的示例
以下是一个简化的BAM文件示例,以更好理解其结构:
@SQ SN:chr1 LN:249250621
@SQ SN:chr2 LN:243199373
@RG ID:test_readgroup LB:test_library PL:illumina SM:test_sample
read1 100 200 ACGTACGTACGTACGT * 0 0 . MD:Z:1234567890
read2 300 400 ACGTACGTACGTACGT * 0 0 . MD:Z:1234567890
在上述示例中,第一行和第二行定义了两个染色体的信息。第三行和第四行定义了两个读取的信息。
BAM文件的应用
BAM文件在生物信息学中具有多种应用,包括但不限于:
比对数据分析:用于分析高通量测序数据的比对结果,如比对精度、比对信任度等。
数据可视化:用于可视化高通量测序数据的比对结果,如基因表达图谱、染色质可及性图谱等。
数据挖掘:用于挖掘高通量测序数据的比对结果中的潜在规律,如基因调控机制、疾病相关性等。
2 BED文件
BED文件是生物信息学中广泛使用的文本文件格式,用于描述基因组上的特征和区域。BED文件通常包含基因组坐标、特征的名称、描述和其他附加信息。
BED文件的基本结构
BED文件由文本行组成,每一行表示一个基因组上的特征或区域。每行通常包含以下字段,用制表符或空格来分隔:
染色体名称(Chromosome Name):描述特征或区域所在的染色体的名称或编号。
起始位置(Start):特征或区域的起始坐标,通常是以0-based的方式表示。
结束位置(End):特征或区域的结束坐标,也是0-based。
BED文件的可选字段
名称(Name):特征或区域的名称或标识符。
分数(Score):用于表示特征的分数、质量或重要性。
链方向(Strand):表示特征所在链的方向,通常是“+”(正链)或