maftools使用方法总结以及常见问题
本文作为总结篇,将在这里对已经写过的几篇文章内容进行概括,可作为整个系列文章的目录,此外还有一些常见问题的解决方法。加上本篇目前一共写了5篇maftools相关文章,基本上按照整个官方文档使用TCGA-LUAD的数据都跑了一遍,并且加上了一些数据整理、重要参数的解释以及自己遇到的问题,应该可以说是目前最完整的中文资料了。其实maftools本身使用起来很简单,在读入数据之后,基本可视化和数据分析通过1~2行代码就能实现,参考官方文档的example足够了。我写得比较细、花的篇幅较多是因为自己也是初学肿瘤的数据分析,通过学习maftools这样功能丰富的分析工具可以更快速入门。
目录 & 主要内容
1. 《肿瘤变异数据分析和可视化工具maftools:安装和文件格式要求》
- maftools的简要介绍
- maftools的安装方法
- maftools对读入文件的一些要求
2. 《肿瘤变异数据分析和可视化工具maftools:突变数据下载和可视化》
- 突变数据(MAF文件)以及临床数据的下载和处理方法
- 突变数据的读入以及统计
- 如何使用maftools对突变数据进行可视化,包括:汇总统计图、瀑布图(oncoplot、oncostrip)、Lollipop图、Rainfall图、TMB的统计和可视化、VAF的可视化、突变基因词云
3. 《肿瘤变异数据分析和可视化工具maftools:突变的数据分析》
- 突变的互斥性(exclusive)和共现性(Co-occurrence)分析
- 预测癌症驱动基因
- pfam注释和统计
- 泛癌的比较分析
- 生存分析(KM曲线)
- 比较两个MAF文件(队列)
- 药物基因互作
- 致癌信号通路
- 肿瘤异质性和MATH score
- 突变特征分析
4. 《肿瘤变异数据分析和可视化工具maftools:CNV的可视化》
- CNV数据下载和处理
- 使用maftools读取GISTIC输出的CNV数据并统计
- CNV数据的可视化,包括:染色体图、气泡图、瀑布图、segment文件的可视化
常见问题
1. 安装的一些问题
(1)从Bioconductor还是GitHub安装
- 这款软件目前迭代速度很快,基本上每隔几天就会在GitHub上有更新,并且Bioconductor上版本比较落后,所以建议还是从GitHub安装。
(2)安装总是失败
- maftools安装起来还挺麻烦的,主要就是依赖包太多了。选择合适的源(比如地理位置离你最近的),失败就多试几次总是会成功的。
2. 数据读入报错 & 不知道如何处理数据
maftools内置了一些已经处理好的文件,如果数据读入报错或是不知道数据怎么处理,可以在R中找到这些文件的路径,然后仔细看看,对照修改自己的文件。比如:
> system.file('extdata', 'tcga_laml.maf.gz', package = 'maftools')
## [1] "/home/xiaofei/software/R-3.5.3/library/maftools/extdata/tcga_laml.maf.gz"
> system.file("extdata", "TCGA.AB.3009.hg19.seg.txt", package = "maftools")
## [1] "/home/xiaofei/software/R-3.5.3/library/maftools/extdata/TCGA.AB.3009.hg19.seg.txt"
3. maftools中的BUG
maftools的BUG还挺多,但也在不断完善的过程中,如果遇到问题可以在maftools的GitHub中创建issue咨询作者,处理速度还挺快,也算是给开源社区做贡献。我目前遇到过的问题有:
- typo,不光是图和统计的表中,连帮助和文档里都有不少typo。所以分析结果要放到文章里的话,务必仔细检查几遍。
- 生成的图和官方文档的不一致,比如基因名没有斜体,没有背景的网格。最后发现可能是Bioconductor的版本太老,更新了GitHub最新版解决。
- 有些图直接通过X11显示有问题(我用的Xmanager)。直接输出文件正常。
- 图片中的字超出画布。可以生成矢量图(比如pdf)之后,再用Adobe Illustrator之类的软件进行调整。
- 有些参数可能完全不起作用,遇到这类问题可以直接输入函数名看下源代码,有的时候真的没有做处理。
您好,maf_1_high <- subsetMaf(maf=maf_1, tsb = c('TCGA-AG-A002-01A-01W-A00K-09'), mafObj = TRUE,isTCGA=TRUE)提取样本报错,Error in dcast.data.table(data = vc, formula = Tumor_Sample_Barcode ~ :
Can not cast an empty data.table。不知道怎么搞得。提取基因就可以。我这第一个样品就是TCGA-AG-A002-01A-01W-A00K-09。就是提不出来。
另外我把样品名字提取前12个字符low_sample <- substring(low$ID,1,12),maf_1_low <- subsetMaf(maf=maf_1, tsb = low_sample, isTCGA = TRUE)。还是报相同的错误。我只是把样本分为高低表达组了。结果就提不出来。maf_1_high <- subsetMaf(maf=maf_1, tsb = c('TCGA-AG-A002'), isTCGA = TRUE)单独输入一个样本还是报错。maf_1是maf格式,"maftools"包。数据也是TCGA下载的。都搞了2天了,不知道怎么搞得。希望大神帮忙解决一下。
我的包的加载情况如下:
sessionInfo()
R version 4.0.0 (2020-04-24)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 10 x64 (build 18362)
Matrix products: default
locale:
[1] LC_COLLATE=Chinese (Simplified)_China.936
[2] LC_CTYPE=Chinese (Simplified)_China.936
[3] LC_MONETARY=Chinese (Simplified)_China.936
[4] LC_NUMERIC=C
[5] LC_TIME=Chinese (Simplified)_China.936
attached base packages:
[1] stats graphics grDevices utils datasets methods
[7] base
other attached packages:
[1] maftools_2.4.10
可能和maftools的版本有关,可以去github上给作者提issue
感谢博主,问题已经解决,加载的maf文件样本编号是28位,而要提取的样本编号是12位。该函数不能自动匹配前12位,所以报错。感谢博主,博主威武!
感谢你的反馈!
感谢博主的分享,想请教您一个问题,在用mafCompare( )比较两组差异突变基因时对两组的样本量有要求吗,比如相差不能太大?因为最近在分析免疫分组的数据,高低免疫组比例大概是3:1,差异分析的结果感觉并不合理
请问你是后面用28位的ID提取的吗?然后成功了?我的用28位提取maf文件里也是28,却还是报错
这个教程差不多两年前写的,maftools更新频率比较快,可能会有一些差异的地方,可以去github issue里提问
[...]肿瘤变异数据分析和可视化工具maftools:安装和文件格式要求 | Public Library of Bioinformatics MathJax.Hub.Config({showProcessingMessages:!1,messageStyle:"none",extensions:["tex2jax.js"],jax:["input/TeX","output/HTML-CSS"],[...]
拜读了博主的所有文章,膜拜大神!我在自己尝试中遇到一个问题:当不涉及clinical数据时一切基本顺利,但用read.maf中同时读取clinicalData时出现的报错,提示Error in colnames(sample.anno) : object 'sample.anno' not found。
clinical数据和mutect maf数据都是通过TCGAbiolink下载的,请教一下这个应该怎么解决啊?
博主,你好,我在将自己的VCF文件转maf,读入R后,利用maftools,做瀑布图,发现基因的突变频率都是百分之百,这种情况该怎么处理,谢谢
和小白-fy遇到的问题一样,Error in colnames(sample.anno) : object 'sample.anno' not found(出现在 #> -Summarizing
> -Processing clinical data)这两句的注释后面,没有办法finished本文写于3年前,而maftools一直处于更新状态,且软件作者没有保持版本间的兼容性,这导致本文很多内容可能已与新版有出入,建议直接翻阅官方文档
你好,输出的瀑布图中线条颜色比图例的颜色偏浅,是怎么回事呀?