maftools使用方法总结以及常见问题

本文作为总结篇,将在这里对已经写过的几篇文章内容进行概括,可作为整个系列文章的目录,此外还有一些常见问题的解决方法。加上本篇目前一共写了5篇maftools相关文章,基本上按照整个官方文档使用TCGA-LUAD的数据都跑了一遍,并且加上了一些数据整理、重要参数的解释以及自己遇到的问题,应该可以说是目前最完整的中文资料了。其实maftools本身使用起来很简单,在读入数据之后,基本可视化和数据分析通过1~2行代码就能实现,参考官方文档的example足够了。我写得比较细、花的篇幅较多是因为自己也是初学肿瘤的数据分析,通过学习maftools这样功能丰富的分析工具可以更快速入门。

目录 & 主要内容

1. 《肿瘤变异数据分析和可视化工具maftools:安装和文件格式要求

  • maftools的简要介绍
  • maftools的安装方法
  • maftools对读入文件的一些要求

2. 《肿瘤变异数据分析和可视化工具maftools:突变数据下载和可视化

  • 突变数据(MAF文件)以及临床数据的下载和处理方法
  • 突变数据的读入以及统计
  • 如何使用maftools对突变数据进行可视化,包括:汇总统计图、瀑布图(oncoplot、oncostrip)、Lollipop图、Rainfall图、TMB的统计和可视化、VAF的可视化、突变基因词云

3. 《肿瘤变异数据分析和可视化工具maftools:突变的数据分析

  • 突变的互斥性(exclusive)和共现性(Co-occurrence)分析
  • 预测癌症驱动基因
  • pfam注释和统计
  • 泛癌的比较分析
  • 生存分析(KM曲线)
  • 比较两个MAF文件(队列)
  • 药物基因互作
  • 致癌信号通路
  • 肿瘤异质性和MATH score
  • 突变特征分析

4. 《肿瘤变异数据分析和可视化工具maftools:CNV的可视化

  • CNV数据下载和处理
  • 使用maftools读取GISTIC输出的CNV数据并统计
  • CNV数据的可视化,包括:染色体图、气泡图、瀑布图、segment文件的可视化

常见问题

1. 安装的一些问题

(1)从Bioconductor还是GitHub安装

  • 这款软件目前迭代速度很快,基本上每隔几天就会在GitHub上有更新,并且Bioconductor上版本比较落后,所以建议还是从GitHub安装。

(2)安装总是失败

  • maftools安装起来还挺麻烦的,主要就是依赖包太多了。选择合适的源(比如地理位置离你最近的),失败就多试几次总是会成功的。

2. 数据读入报错 & 不知道如何处理数据

maftools内置了一些已经处理好的文件,如果数据读入报错或是不知道数据怎么处理,可以在R中找到这些文件的路径,然后仔细看看,对照修改自己的文件。比如:

> system.file('extdata', 'tcga_laml.maf.gz', package = 'maftools') 
## [1] "/home/xiaofei/software/R-3.5.3/library/maftools/extdata/tcga_laml.maf.gz"
> system.file("extdata", "TCGA.AB.3009.hg19.seg.txt", package = "maftools")
## [1] "/home/xiaofei/software/R-3.5.3/library/maftools/extdata/TCGA.AB.3009.hg19.seg.txt"

3. maftools中的BUG

maftools的BUG还挺多,但也在不断完善的过程中,如果遇到问题可以在maftools的GitHub中创建issue咨询作者,处理速度还挺快,也算是给开源社区做贡献。我目前遇到过的问题有:

  • typo,不光是图和统计的表中,连帮助和文档里都有不少typo。所以分析结果要放到文章里的话,务必仔细检查几遍。
  • 生成的图和官方文档的不一致,比如基因名没有斜体,没有背景的网格。最后发现可能是Bioconductor的版本太老,更新了GitHub最新版解决。
  • 有些图直接通过X11显示有问题(我用的Xmanager)。直接输出文件正常。
  • 图片中的字超出画布。可以生成矢量图(比如pdf)之后,再用Adobe Illustrator之类的软件进行调整。
  • 有些参数可能完全不起作用,遇到这类问题可以直接输入函数名看下源代码,有的时候真的没有做处理。

标签: 癌症, R语言, TCGA, maftools

知识共享许可协议 作者: 链接:https://byteofbio.com/archives/15.html
本文采用“署名-非商业性使用-相同方式分享 4.0 国际许可协议”进行许可

已有 15 条评论

  1. ltg ltg

    您好,maf_1_high <- subsetMaf(maf=maf_1, tsb = c('TCGA-AG-A002-01A-01W-A00K-09'), mafObj = TRUE,isTCGA=TRUE)提取样本报错,Error in dcast.data.table(data = vc, formula = Tumor_Sample_Barcode ~ :
    Can not cast an empty data.table。不知道怎么搞得。提取基因就可以。我这第一个样品就是TCGA-AG-A002-01A-01W-A00K-09。就是提不出来。

  2. ltg ltg

    另外我把样品名字提取前12个字符low_sample <- substring(low$ID,1,12),maf_1_low <- subsetMaf(maf=maf_1, tsb = low_sample, isTCGA = TRUE)。还是报相同的错误。我只是把样本分为高低表达组了。结果就提不出来。maf_1_high <- subsetMaf(maf=maf_1, tsb = c('TCGA-AG-A002'), isTCGA = TRUE)单独输入一个样本还是报错。maf_1是maf格式,"maftools"包。数据也是TCGA下载的。都搞了2天了,不知道怎么搞得。希望大神帮忙解决一下。

  3. ltg ltg

    我的包的加载情况如下:
    sessionInfo()
    R version 4.0.0 (2020-04-24)
    Platform: x86_64-w64-mingw32/x64 (64-bit)
    Running under: Windows 10 x64 (build 18362)

    Matrix products: default

    locale:
    [1] LC_COLLATE=Chinese (Simplified)_China.936
    [2] LC_CTYPE=Chinese (Simplified)_China.936
    [3] LC_MONETARY=Chinese (Simplified)_China.936
    [4] LC_NUMERIC=C
    [5] LC_TIME=Chinese (Simplified)_China.936

    attached base packages:
    [1] stats graphics grDevices utils datasets methods
    [7] base

    other attached packages:
    [1] maftools_2.4.10

    1. 可能和maftools的版本有关,可以去github上给作者提issue

  4. ltg ltg

    感谢博主,问题已经解决,加载的maf文件样本编号是28位,而要提取的样本编号是12位。该函数不能自动匹配前12位,所以报错。感谢博主,博主威武!

    1. 感谢你的反馈!

  5. zhangze zhangze

    感谢博主的分享,想请教您一个问题,在用mafCompare( )比较两组差异突变基因时对两组的样本量有要求吗,比如相差不能太大?因为最近在分析免疫分组的数据,高低免疫组比例大概是3:1,差异分析的结果感觉并不合理

  6. Hannsial Hannsial

    请问你是后面用28位的ID提取的吗?然后成功了?我的用28位提取maf文件里也是28,却还是报错

    1. 这个教程差不多两年前写的,maftools更新频率比较快,可能会有一些差异的地方,可以去github issue里提问

  7. [...]肿瘤变异数据分析和可视化工具maftools:安装和文件格式要求 | Public Library of Bioinformatics MathJax.Hub.Config({showProcessingMessages:!1,messageStyle:"none",extensions:["tex2jax.js"],jax:["input/TeX","output/HTML-CSS"],[...]

  8. 小白-fy 小白-fy

    拜读了博主的所有文章,膜拜大神!我在自己尝试中遇到一个问题:当不涉及clinical数据时一切基本顺利,但用read.maf中同时读取clinicalData时出现的报错,提示Error in colnames(sample.anno) : object 'sample.anno' not found。
    clinical数据和mutect maf数据都是通过TCGAbiolink下载的,请教一下这个应该怎么解决啊?

  9. 善变! 善变!

    博主,你好,我在将自己的VCF文件转maf,读入R后,利用maftools,做瀑布图,发现基因的突变频率都是百分之百,这种情况该怎么处理,谢谢

  10. 何彬彬 何彬彬

    和小白-fy遇到的问题一样,Error in colnames(sample.anno) : object 'sample.anno' not found(出现在 #> -Summarizing

    > -Processing clinical data)这两句的注释后面,没有办法finished
    1. 本文写于3年前,而maftools一直处于更新状态,且软件作者没有保持版本间的兼容性,这导致本文很多内容可能已与新版有出入,建议直接翻阅官方文档

  11. yangyangyang yangyangyang

    你好,输出的瀑布图中线条颜色比图例的颜色偏浅,是怎么回事呀?

添加新评论