SOPs/coordinates – BaRC Wikihttp://barcwiki.wi.mit.edu/wiki/SOPs/coordinates

文件,就是把测序reads比对到参考基因组后的文件!bam或者bed格式的文件主要是为了追踪我们的reads到底比对到了参加基因组的什么区域,而UCSC规定的这几个文件格式(wig、bigWig和bedgraph)用处不一样,仅仅是为了追踪参考基因组的各个区域的覆盖度,测序深度!而且这些定义好的文件,可以无缝连接到UCSC的Genome Browser工具里面进行可视化!

这个网站提供了这几种数据格式的构造及转换脚本:SOPs/coordinates – BaRC Wiki

BED、WIG、BIGWIG和BEDGRAPH文件的比较

文件格式

数据类型

存储方式

应用场景

BED

基因组区域

文本

基因组注释、ChIP-seq、ATAC-seq等

WIG

连续测量值

文本

基因表达、DNA甲基化、染色质可及性等

BIGWIG

连续测量值

压缩

基因表达、DNA甲基化、染色质可及性等

BEDGRAPH

连续测量值

文本

基因表达、DNA甲基化、染色质可及性等

BAM文件是生物信息学中广泛使用的文本文件格式,用于存储高通量测序数据(如DNA-seq、RNA-seq和ChIP-seq)的比对结果。BAM文件通常由一个或多个比对结果组成,每个比对结果由一个或多个读取组成。

BAM文件的基本结构

BAM文件由一个或多个“记录”组成,每个记录描述一个比对结果或读取。记录由以下字段组成:

染色体名称(Reference Name):描述比对结果或读取所在的染色体的名称或编号。

起始位置(Start):比对结果或读取的起始坐标,通常是以0-based的方式表示。

结束位置(End):比对结果或读取的结束坐标,也是0-based。

碱基序列(Bases):比对结果或读取的碱基序列。

质量值(Qualities):比对结果或读取的质量值。

附加信息(Auxiliary Information):比对结果或读取的附加信息,如比对得分、信任度等。

1 BAM文件的示例

以下是一个简化的BAM文件示例,以更好理解其结构:

@SQ SN:chr1 LN:249250621

@SQ SN:chr2 LN:243199373

@RG ID:test_readgroup LB:test_library PL:illumina SM:test_sample

read1 100 200 ACGTACGTACGTACGT * 0 0 . MD:Z:1234567890

read2 300 400 ACGTACGTACGTACGT * 0 0 . MD:Z:1234567890

在上述示例中,第一行和第二行定义了两个染色体的信息。第三行和第四行定义了两个读取的信息。

BAM文件的应用

BAM文件在生物信息学中具有多种应用,包括但不限于:

比对数据分析:用于分析高通量测序数据的比对结果,如比对精度、比对信任度等。

数据可视化:用于可视化高通量测序数据的比对结果,如基因表达图谱、染色质可及性图谱等。

数据挖掘:用于挖掘高通量测序数据的比对结果中的潜在规律,如基因调控机制、疾病相关性等。

2 BED文件

BED文件是生物信息学中广泛使用的文本文件格式,用于描述基因组上的特征和区域。BED文件通常包含基因组坐标、特征的名称、描述和其他附加信息。

BED文件的基本结构

BED文件由文本行组成,每一行表示一个基因组上的特征或区域。每行通常包含以下字段,用制表符或空格来分隔:

染色体名称(Chromosome Name):描述特征或区域所在的染色体的名称或编号。

起始位置(Start):特征或区域的起始坐标,通常是以0-based的方式表示。

结束位置(End):特征或区域的结束坐标,也是0-based。

BED文件的可选字段

名称(Name):特征或区域的名称或标识符。

分数(Score):用于表示特征的分数、质量或重要性。

链方向(Strand):表示特征所在链的方向,通常是“+”(正链)或