bam/sam文件转换以及samtools,IGV使用(转录组中提取病毒信息)
背景:
有一个已知病毒基因组序列文件,长度约为3k,下载到fasta文件和gff3文件。
需求:
希望在转录组测序结果中,看是否有检测到病毒的表达。
bam/sam文件转换以及samtools,IGV使用(转录组中提取病毒信息)
实现方法:
- 直接将病毒的fasta文件与参考基因组文件cat在一起
- 将个gff3文件转为gtf文件格式,这一步暂时似乎没有现成软件,可以用脚本实现
- 利用比对软件如star进行比对
- 处理比对得到的bam文件结果
以下针对第4条详细描述:
4.1、首先对bam文件进行排序,因为samtools提取信息时,通常需要文件已经排序
使用默认参数排序即可:samtools sort mybam.bam -T sorted -o sorted.bam
(-T 为中间文件前缀,-o指定输出文件名) (注:所有的参数都可以通过 samtools help sort/view/index/... 查看)
4.2、排序之后,需要建立index
samtools index sorted.bam
4.3、在结果文件中,病毒ID会放在Chromesome 一列,可以直接提取比对到病毒上的信息。
samtools view -b -h sorted.bam chrID > map_to_virus.bam
(-b 指明输出文件为bam格式,-h保留sam文件表头)
4.4、用samtools 查看深度
samtools depth -r chr:from-to map_to_virus.bam > depth.txt
(-r指定染色体和区域)
4.5、windows下使用IGV
这里也可以用windows下的IGV软件直接进行可视化,但是如果文件太大,电脑可能会死机,小文件可以看一看
首先打开IGV,先Genomes->Load Genome From File导入病毒的fasta文件,作为参考基因组文件,再File->Load From File 打开之前建好index的bam文件即可,这里需要把bam文件和index文件都放在一个文件夹下,不然会报错
over~
转载请注明出处豆豆网
版权声明:原创文章自由转载-非商用-非衍生-保持署名及文章出处(创意共享3.0许可证)
转载说明:转载请注明出处豆豆网
部分文章选自网络(文首、末未标明豆豆网的均来自网络),我们对文中观点保持中立,本站涉及软件下载,仅供参考学习、交流之目的,涉及版权请告知删除,邮箱地址:豆豆网博客