maftools使用方法总结以及常见问题

本文作为总结篇,将在这里对已经写过的几篇文章内容进行概括,可作为整个系列文章的目录,此外还有一些常见问题的解决方法。加上本篇目前一共写了5篇maftools相关文章,基本上按照整个官方文档使用TCGA-LUAD的数据都跑了一遍,并且加上了一些数据整理、重要参数的解释以及自己遇到的问题,应该可以说是目前最完整的中文资料了。其实maftools本身使用起来很简单,在读入数据之后,基本可视化和数据分析通过1~2行代码就能实现,参考官方文档的example足够了。我写得比较细、花的篇幅较多是因为自己也是初学肿瘤的数据分析,通过学习maftools这样功能丰富的分析工具可以更快速入门。

- 阅读完整内容 -

肿瘤变异数据分析和可视化工具maftools:CNV的可视化

Maftools系列文章:

  1. maftools使用方法总结以及常见问题
  2. 肿瘤变异数据分析和可视化工具maftools:安装和文件格式要求
  3. 肿瘤变异数据分析和可视化工具maftools:突变数据下载和可视化
  4. 肿瘤变异数据分析和可视化工具maftools:突变的数据分析
  5. 肿瘤变异数据分析和可视化工具maftools:CNV的可视化

上篇文章《肿瘤变异数据分析和可视化工具maftools:突变的数据分析》介绍了使用maftools分析MAF格式的突变数据,但maftools本身功能不限于此,它也可以针对拷贝数变异进行一些分析。

CNV数据下载和处理

还是继续之前TCGA-LUAD的例子。Maftools接受的CNV数据需要是GISTIC输出的结果,包括4个文件——all_lesions.conf_XX.txtamp_genes.conf_XX.txtdel_genes.conf_XX.txt以及scores.gistic(其中XX代表置信水平)。但是从TCGA官网能下载到的GISTIC的输出结果只有LUAD.focal_score_by_genes.txt,因此需要下载更上游的DNAcopy的输出结果,然后自己再根据TCGA的流程和参数跑一遍GISTIC。

- 阅读完整内容 -

肿瘤变异数据分析和可视化工具maftools:突变的数据分析

Maftools系列文章:

  1. maftools使用方法总结以及常见问题
  2. 肿瘤变异数据分析和可视化工具maftools:安装和文件格式要求
  3. 肿瘤变异数据分析和可视化工具maftools:突变数据下载和可视化
  4. 肿瘤变异数据分析和可视化工具maftools:突变的数据分析
  5. 肿瘤变异数据分析和可视化工具maftools:CNV的可视化

上一篇文章《肿瘤变异数据分析和可视化工具maftools:突变数据下载和可视化》主要以TCGA-LUAD为例介绍突变数据和临床数据的下载、处理以及简单的可视化。这篇文章更详细介绍可以利用maftools对肿瘤MAF格式的突变数据做哪些分析。

还和上篇一样,先用maftools把数据读入

具体的数据下载和处理方法这里就不再赘述了,请移步上篇文章:《肿瘤变异数据分析和可视化工具maftools:突变数据下载和可视化》。这篇文章里,读入的临床数据终于可以派上用场了。

library(maftools)
luad <- read.maf(maf="TCGA.LUAD.maf", clinicalData="clinical.tsv")

- 阅读完整内容 -

肿瘤变异数据分析和可视化工具maftools:突变数据下载和可视化

Maftools系列文章:

  1. maftools使用方法总结以及常见问题
  2. 肿瘤变异数据分析和可视化工具maftools:安装和文件格式要求
  3. 肿瘤变异数据分析和可视化工具maftools:突变数据下载和可视化
  4. 肿瘤变异数据分析和可视化工具maftools:突变的数据分析
  5. 肿瘤变异数据分析和可视化工具maftools:CNV的可视化

本文接上次的内容:《肿瘤变异数据分析和可视化工具maftools:安装和文件格式要求》,本文以TCGA肺腺癌(LUAD)的数据为例介绍突变数据下载和可视化。

数据下载和处理

在TCGA官网下载TCGA-LUAD项目中mutect2输出的MAF格式的突变以及临床信息:

$ ls -lhrt
total 50M
-rw-r--r-- 1 xiaofei xiaofei  50M May 14 22:44 TCGA.LUAD.maf.gz
-rw-r--r-- 1 xiaofei xiaofei 157K May 15 00:12 clinical.tsv

- 阅读完整内容 -

肿瘤变异数据分析和可视化工具maftools:安装和文件格式要求

Maftools系列文章:

  1. maftools使用方法总结以及常见问题
  2. 肿瘤变异数据分析和可视化工具maftools:安装和文件格式要求
  3. 肿瘤变异数据分析和可视化工具maftools:突变数据下载和可视化
  4. 肿瘤变异数据分析和可视化工具maftools:突变的数据分析
  5. 肿瘤变异数据分析和可视化工具maftools:CNV的可视化

Maftools简介

Maftools是一款可以对MAF格式(Mutation Annotation Format)的变异数据进行统计、分析和可视化的R包。除了可以对TCGA来源的MAF文件以外,其他任何变异数据只要是MAF格式都可以使用这款工具进行分析。

Maftools包可主要概括为可视化和分析两大模块,流程和使用方法很简单:通过read.maf读入MAF文件(或者经过格式转换)得到MAF对象,然后将对象传递给对应的分析或者可视化函数就行了。主要模块、函数和主要的分析和可视化功能见下图:

- 阅读完整内容 -

VAF,MAF,肿瘤纯度,MCF,CCF的概念和计算方法

VAF的概念和计算方法

VAF的全称是Variant Allele Frequency变异等位基因频率)或Variant Allele Fraction变异等位基因分数)。简单来说就是在基因组某个位点支持alternate/mutant allele的reads覆盖深度占这个位点总reads覆盖深度的比例。以VCF文件中的字段为例,其中DP代表Total Depth,AD代表Allele Depth,因此VAF的计算就是:

$$VAF = \frac{Allele\ Depth}{Total\ Depth} = \frac{AD}{DP}$$

VAF用得比较多的地方是在二倍体germline的genotyping中,杂合位点的VAF在高深度(比如depth>80)情况下应该接近50%;如果VAF接近0.25/0.75说明基因组上可能还有另一份拷贝。另一个应用场景就是癌症基因组的somatic genotyping。肿瘤组织、cfDNA、ctDNA、CTC genotyping的结果中会包含正常的allele(与正常体细胞一致)以及突变的allele,其中突变allele的所占的比例就是VAF。VAF可以用于推断肿瘤的异质性和肿瘤纯度,此外VAF的高低可能会影响癌症的预后。

- 阅读完整内容 -

使用最小二乘法和梯度下降法进行线性回归分析

线性回归问题

线性回归问题即已知一系列样本的自变量和因变量的值,求解以下方程中的各θj

$$h_θ(x) = θ_0 + θ_1x_1 + θ_2x_2 + \cdots + θ_nx_n$$

设样本数量为m,评估拟合的直线与实际样本之间差异的代价函数(Cost Function)为:

$$J(θ_0,θ_1,\cdots,θ_n) = \frac{1}{2m}\sum_{i=1}^{m}(h_θ(x^{(i)})-y^{(i)})^2$$

因此,寻找最佳拟合的线性回归模型则转化为求解该代价函数的最小值,常用方法为最小二乘法(Least Squares Method)和梯度下降法(Gradient Descent Method)。

- 阅读完整内容 -

生物信息学预测肿瘤新抗原(新表位):软件和阈值的选择

癌症疫苗靶向肿瘤细胞的抗原可以大致分为两类:肿瘤相关性抗原(tumor-associatied self-antigen)以及肿瘤特异性抗原(tumor-specific antigen)。前者指的是在正常体细胞中也存在,但肿瘤细胞中异常高表达的抗原;后者指的是因肿瘤特异性突变而产生的新抗原/新表位(neoantigen/neoepitope)。新抗原相比肿瘤相关性抗原拥有更强的特异性因此副作用更低,并且不受限于胸腺的中枢耐受。通过高通量测序可以获取大量的肿瘤特异性突变,基于这些突变预测新抗原在癌症的个性化免疫治疗方面有很广阔的应用前景。

I类主要组织相容性复合体(MHC class I)抗原的处理和呈递过程:(1)肿瘤特异性突变产生的突变蛋白会被蛋白酶体降解为8~11aa的肽段;(2)这些肽段被抗原加工相关转运体(TAP)转运进入内质网腔;(3)与新合成的MHC-I结合;(4)最终通过高尔基体转运至细胞膜被CD8+ T细胞识别。

- 阅读完整内容 -