Samtools 的使用

Introduction

用于查看和处理 SAM 和 BAM 文件;SAM 文件较 BAM 文件大,BAM 文件是 SAM 文件的二进制格式文件,空间占用小,且用于计算时的速度也会大大提升。

SAM 文件可以保留 reads 到参考基因组序列的比对信息;主要由两部分组成:头部(header section)和比对结果部分(alignment section)

没有 header 的 SAM 文件并不能转换成 BAM 文件

Getting Started

1. 查看 bam 文件头部

1
2
3
4
5
6
7
8
9
$ samtools view -h test.bam | head
## output
@HD VN:1.6 SO:coordinate
@SQ SN:chrM LN:16571
@SQ SN:chr1 LN:249250621
@SQ SN:chr2 LN:243199373
.......
@RG ID:sampleid PL:Illumina LB:lib SM:sampleid ## bwa -R 给定的参数;如:<abspath>/bwa mem -t 4 -M -k 30 -R '@RG\tID:sampleid\tPL:Illumina\tLB:lib\tSM:sampleid' ....
@PG ID:bwa PN:bwa ......
  • 解释:
    • HD:VN-版本号;SO-排列方式
    • SQ:SN-参考序列序号;LN-长度
    • RG:ID-样本信息;
    • PG:ID-比对工具;以及比对时运行的命令

参考链接

[1] https://www.jianshu.com/p/68f6e35fa4a2