bam/sam文件转换以及samtools,IGV使用(转录组中提取病毒信息)

 

背景:

有一个已知病毒基因组序列文件,长度约为3k,下载到fasta文件和gff3文件。

需求:

希望在转录组测序结果中,看是否有检测到病毒的表达。

 

bam/sam文件转换以及samtools,IGV使用(转录组中提取病毒信息)

实现方法:

  1. 直接将病毒的fasta文件与参考基因组文件cat在一起
  2. 将个gff3文件转为gtf文件格式,这一步暂时似乎没有现成软件,可以用脚本实现
  3. 利用比对软件如star进行比对
  4. 处理比对得到的bam文件结果

以下针对第4条详细描述:

4.1、首先对bam文件进行排序,因为samtools提取信息时,通常需要文件已经排序

使用默认参数排序即可:samtools sort mybam.bam -T sorted -o sorted.bam

(-T 为中间文件前缀,-o指定输出文件名)
(注:所有的参数都可以通过 samtools help sort/view/index/... 查看)
4.2、排序之后,需要建立index

samtools index sorted.bam

4.3、在结果文件中,病毒ID会放在Chromesome 一列,可以直接提取比对到病毒上的信息。

samtools view -b -h sorted.bam chrID > map_to_virus.bam

(-b 指明输出文件为bam格式,-h保留sam文件表头)
4.4、用samtools 查看深度

samtools depth -r chr:from-to map_to_virus.bam > depth.txt

(-r指定染色体和区域)
4.5、windows下使用IGV

这里也可以用windows下的IGV软件直接进行可视化,但是如果文件太大,电脑可能会死机,小文件可以看一看

 

首先打开IGV,先Genomes->Load Genome From File导入病毒的fasta文件,作为参考基因组文件,再File->Load From File 打开之前建好index的bam文件即可,这里需要把bam文件和index文件都放在一个文件夹下,不然会报错

over~

 

转载请注明出处豆豆网

欢迎分享至:

版权声明:原创文章自由转载-非商用-非衍生-保持署名及文章出处(创意共享3.0许可证
转载说明:转载请注明出处豆豆网
部分文章选自网络(文首、末未标明豆豆网的均来自网络),我们对文中观点保持中立,本站涉及软件下载,仅供参考学习、交流之目的,涉及版权请告知删除,邮箱地址:豆豆网博客

分类: 随手记

发表评论

电子邮件地址不会被公开。 必填项已用*标注