bed bam wig、bigWig和bedgraph文件详解-世界杯皮肤-世界杯预选赛南美区_世界杯俄罗斯

SOPs/coordinates – BaRC Wikihttp://barcwiki.wi.mit.edu/wiki/SOPs/coordinates

文件，就是把测序reads比对到参考基因组后的文件！bam或者bed格式的文件主要是为了追踪我们的reads到底比对到了参加基因组的什么区域，而UCSC规定的这几个文件格式(wig、bigWig和bedgraph)用处不一样，仅仅是为了追踪参考基因组的各个区域的覆盖度，测序深度！而且这些定义好的文件，可以无缝连接到UCSC的Genome Browser工具里面进行可视化！

这个网站提供了这几种数据格式的构造及转换脚本：SOPs/coordinates – BaRC Wiki

BED、WIG、BIGWIG和BEDGRAPH文件的比较

文件格式

数据类型

存储方式

应用场景

BED

基因组区域

文本

基因组注释、ChIP-seq、ATAC-seq等

WIG

连续测量值

文本

基因表达、DNA甲基化、染色质可及性等

BIGWIG

连续测量值

压缩

基因表达、DNA甲基化、染色质可及性等

BEDGRAPH

连续测量值

文本

基因表达、DNA甲基化、染色质可及性等

BAM文件是生物信息学中广泛使用的文本文件格式，用于存储高通量测序数据（如DNA-seq、RNA-seq和ChIP-seq）的比对结果。BAM文件通常由一个或多个比对结果组成，每个比对结果由一个或多个读取组成。

BAM文件的基本结构

BAM文件由一个或多个“记录”组成，每个记录描述一个比对结果或读取。记录由以下字段组成：

染色体名称（Reference Name）：描述比对结果或读取所在的染色体的名称或编号。

起始位置（Start）：比对结果或读取的起始坐标，通常是以0-based的方式表示。

结束位置（End）：比对结果或读取的结束坐标，也是0-based。

碱基序列（Bases）：比对结果或读取的碱基序列。

质量值（Qualities）：比对结果或读取的质量值。

附加信息（Auxiliary Information）：比对结果或读取的附加信息，如比对得分、信任度等。

1 BAM文件的示例

以下是一个简化的BAM文件示例，以更好理解其结构：

@SQ SN:chr1 LN:249250621

@SQ SN:chr2 LN:243199373

@RG ID:test_readgroup LB:test_library PL:illumina SM:test_sample

read1 100 200 ACGTACGTACGTACGT * 0 0 . MD:Z:1234567890

read2 300 400 ACGTACGTACGTACGT * 0 0 . MD:Z:1234567890

在上述示例中，第一行和第二行定义了两个染色体的信息。第三行和第四行定义了两个读取的信息。

BAM文件的应用

BAM文件在生物信息学中具有多种应用，包括但不限于：

比对数据分析：用于分析高通量测序数据的比对结果，如比对精度、比对信任度等。

数据可视化：用于可视化高通量测序数据的比对结果，如基因表达图谱、染色质可及性图谱等。

数据挖掘：用于挖掘高通量测序数据的比对结果中的潜在规律，如基因调控机制、疾病相关性等。

2 BED文件

BED文件是生物信息学中广泛使用的文本文件格式，用于描述基因组上的特征和区域。BED文件通常包含基因组坐标、特征的名称、描述和其他附加信息。

BED文件的基本结构

BED文件由文本行组成，每一行表示一个基因组上的特征或区域。每行通常包含以下字段，用制表符或空格来分隔：

染色体名称（Chromosome Name）：描述特征或区域所在的染色体的名称或编号。

起始位置（Start）：特征或区域的起始坐标，通常是以0-based的方式表示。

结束位置（End）：特征或区域的结束坐标，也是0-based。

BED文件的可选字段

名称（Name）：特征或区域的名称或标识符。

分数（Score）：用于表示特征的分数、质量或重要性。

链方向（Strand）：表示特征所在链的方向，通常是“+”（正链）或