生物信息学预测肿瘤新抗原（新表位）：软件和阈值的选择

癌症疫苗靶向肿瘤细胞的抗原可以大致分为两类：肿瘤相关性抗原（tumor-associatied self-antigen）以及肿瘤特异性抗原（tumor-specific antigen）。前者指的是在正常体细胞中也存在，但肿瘤细胞中异常高表达的抗原；后者指的是因肿瘤特异性突变而产生的新抗原/新表位（neoantigen/neoepitope）。新抗原相比肿瘤相关性抗原拥有更强的特异性因此副作用更低，并且不受限于胸腺的中枢耐受。通过高通量测序可以获取大量的肿瘤特异性突变，基于这些突变预测新抗原在癌症的个性化免疫治疗方面有很广阔的应用前景。

I类主要组织相容性复合体（MHC class I）抗原的处理和呈递过程：（1）肿瘤特异性突变产生的突变蛋白会被蛋白酶体降解为8~11aa的肽段；（2）这些肽段被抗原加工相关转运体（TAP）转运进入内质网腔；（3）与新合成的MHC-I结合；（4）最终通过高尔基体转运至细胞膜被CD8+ T细胞识别。

MHC-I 抗原呈递途径

MHC-I 抗原呈递途径 (Neefjes J et al., 2011)

生物信息学预测肿瘤新抗原的方法

目前通过生物信息学方法预测新抗原主要是关注于蛋白酶体对突变蛋白的剪切的预测、肽段转运、以及突变肽段和MHC-I结合的亲和力预测等方面。相关的分析工具非常多，比如：

NetChop：通过神经网络预测人类蛋白酶体的剪切位点。目前有两种预测方法可共选择，分别是C-term 3.0和20S 3.0。C-term 3.0基于1260个公开的MHC-I配体的C端剪切位点进行训练；20S 3.0基于体外降解实验的数据。
NetCTL：预测蛋白酶体剪切位点、TAP转运效率以及肽段和MHC-I结合的亲和力。其中蛋白酶体剪切位点的分析结果和NetChop一致；TAP转运效率预测使用Peters等描述的权重矩阵；肽段和MHC-I结合的亲和力预测使用的NetMHC所描述的方法训练的神经网络。目前支持包含A26和B39在内的12类MHC-I超型。
NetMHC：通过神经网络预测肽段和MHC-I结合的亲和力。其神经网络使用了81种不同的人类MHC等位基因进行训练，包括HLA-A、HLA-B、HLA-C以及HLA-E。
NetMHCpan 4.0：之前的大部分算法仅利用了体外实验得到的亲和力数据进行训练，而忽略了抗原处理和转运过程中潜在的选择步骤。NetMHCpan同时整合了亲和力（binding affinity）以及质谱洗脱配体（MS eluted ligand）数据进行训练，得到了相比使用单一数据训练更好的预测结果。
IEDB MHC-I Binding Predictions：IEDB（Immune Epitope Database）由NIAID资助，是一个集合抗体和T细胞表位实验数据的数据库。除此之外IEDB上还整合了一些T细胞表位预测的工具，其中MHC-I Binding Predictions可以在线进行MHC-I亲和力预测。目前支持多种预测算法，包括：IEDB recommended、Consensus、NetMHCpan 4.0、ANN 4.0、SMMPMBEC、SMM、CombLib、PickPocket、NetMHCcons、NetMHCstabpan。

阈值设定方面通常将半最大抑制浓度IC₅₀ ≤ 50nM作为“强亲和力阈值”，IC₅₀ ≤ 500nM作为“中等亲和力阈值”，IC₅₀ ≤ 5000nM作为“低亲和力阈值”。但Bassani-Sternberg等的研究通过比较质谱数据和预测的HLA结合亲和力进行比较发现，常用的IC₅₀ ≤ 500nM的亲和力阈值对于一些HLA类型来说过于严格。那这么多不同的算法应该如何选择，又如何确定阈值呢？

如何选择软件和参数

最近发表在Cancer Immunology Research上的一篇文章《Performance Evaluation of MHC Class-I Binding Prediction Tools Based on an Experimentally Validated MHC–Peptide Binding Data Set》使用了独立任何一个算法训练集的MHC亲和力数据集对13种预测肿瘤新抗原的算法以及参数进行了综合性评估。

受测算法包括NetMHC 4.0、NetMHC 3.4、NetMHCpan 4.0、NetMHCpan 3.0、NetMHCpan 2.8、MHCflurry 1.2、PickPocket 1.1、IEDB SMM、、IEDB SMMPMBEC，以及SYFPEITHI。（其中SYFPEITHI对大多数HLA类型只能预测9和10aa肽段，11aa肽段只能适用于HLA-A1，并且该软件还不能预测HLA-B15，因此没重点在正文中讨论。）

不同算法效果通过计算ROC曲线以及曲线下面积（即AUC）进行评估；推荐参数的确定则依据如下标准：（1）FPR≤0.33（2）TPR≥2*FPR（3）保证前两条的基础上最高sensitivity（FPR）。FPR（sensitivity）和TPR的计算方法可以看我之前写一篇文章《如何去除二代测序数据中的PCR duplication才科学？》。

1. 算法的选择

通过分析发现，当考虑所有长度的肽段（pooled lengths），受测的算法都显示出相近的预测性能。但对于不同长度的肽段和HLA类型，这些算法的预测性能差异较大：

各肿瘤新抗原预测算法ROC AUC

总的来说基于人工神经网络的pan-specific算法拥有最好的预测性能，NetMHC系列的软件总在效果最好的几个算法之列；相比之下IEDB SMM和IEDB SMMPMBEC则总是在较差的算法中。最新的两种算法NetMHCpan 4.0和MHCflurry 1.2并不能和其他算法拉开较大差距，并且也没有某种算法的表现能够脱颖而出。因此作者推荐：总是根据HLA类型和肽段长度选择最合适的算法。

2. 参数的选择

文章评估了强亲和力、中等亲和力、低亲和力阈值下各算法accuracy的表现。和上文类似：不同长度肽段混合时各算法预测的accuracy近似，而当不同长度肽段分开评估时表现差异较大。总体上看，强亲和力阈值accuracy表现更稳定，但同时最低；中等亲和力阈值在混合长度肽段中的accuracy稍微高一些，在某些长度肽段的预测中有非常高的accuracy，但并未展示出长度特异性而是HLA类型特异性；低亲和力阈值下不同算法间差异最大，并在不同类型HLA中表现不稳定。

各肿瘤新抗原预测算法常用亲和力阈值的accuracy评估

此外因为accuracy=(TP+TN)/(P+N)，因此如果TN够高也可以使得accuracy很高，因此文章还用sensitivity和specificity进行了评估。总的来说，使用常用的亲和力阈值，sensitivity结果不太理想。

各肿瘤新抗原预测算法常用亲和力阈值的sensitivity和specificity评估

虽然在很多研究中希望找到尽可能多的HLA结合肽段，降低阈值的严格程度以提高sensitivity似乎是个不错的选择，但是该研究却发现使用低亲和力阈值并不一定都能得到不错的sensitivity。使用上文提到的3条选择最佳参数的标准进行分析后发现，对于AUC更高的算法，推荐的阈值经常比低亲和力阈值更宽松（IC₅₀ > 5000nM）；而对于表现差的算法，推荐的阈值经常在中等和低亲和力阈值之间（500nM < IC₅₀ < 5000nM）。

为了选出一个对任何数据集都可用的推荐阈值，该研究基于上述3条标准对每个HLA类型和每个算法都进行了resampling。并以100次取样计算的推荐阈值的中位数作为“验证阈值”（validated threshold）。然后将验证阈值的sensitivity、specificity、accuracy和低亲和力、中等亲和力阈值通过第二轮resampling进行比较。简单来说就是第一轮确定验证阈值，第二轮比较验证阈值和两种常用阈值的表现。部分HLA类型中，大多数算法使用推荐阈值相比低亲和力阈值的sensitivity显著提高了。在所有HLA类型中，虽然对于部分算法，使用推荐阈值的sensitivity可能有所下降，但是相应的specificity提高更多，最终accuracy的表现也有所提高或没有显著差异或者略微下降。

各肿瘤新抗原预测算法推荐亲和力阈值分析

此外改研究还将直接根据3条标准选出的推荐阈值和通过resampling得到的验证阈值进行比较，阈值本身和对应的accuracy基本没有明显差异。使用该标准选出的推荐阈值，增加了真阳性的比例。

3. MHCcombine

作者开发了一个预测MHC-I结合的网页应用——MHCcombine，可以一站式执行文章中除了MHCflurry以外的12个算法：

http://mhccombine.dkfz.de/mhccombine/

4. 一些不足

本研究仍使用的亲和力数据进行评估，因此像NetMHCpan 4.0这类加入了质谱洗脱配体数据进行训练的优势就无法展现出来了（忽略了抗原处理和呈递等过程的选择）。
没有通过实验测定所有MHC-I结合的亲和性，而是依据软件预测结果的排序进行实验验证，当不再能检测到结合就停止。因此可能会导致结果存在偏差，正确预测出阳性的能力（TPR）可能会被高估。
不同HLA类型和肽段长度的样本量不平衡，HLA-A1和B7以及8和11aa的肽段样本数量都比较少。

参考文献

Neefjes J, Jongsma M L M, Paul P, et al. Towards a systems understanding of MHC class I and MHC class II antigen presentation[J]. Nature Reviews Immunology, 2011, 11(12): 823.
The problem with neoantigen prediction. Nat. Biotechnol. 35, 97 (2017).
Jurtz V, Paul S, Andreatta M, et al. NetMHCpan-4.0: Improved peptide–MHC class I interaction predictions integrating eluted ligand and peptide binding affinity data[J]. The Journal of Immunology, 2017, 199(9): 3360-3368.
Bonsack M, Hoppe S, Winter J, et al. Performance Evaluation of MHC Class-I Binding Prediction Tools Based on an Experimentally Validated MHC–Peptide Binding Data Set[J]. Cancer immunology research, 2019, 7(5): 719-736.

A Byte of Biology

- 关注生物信息学

生物信息学预测肿瘤新抗原（新表位）：软件和阈值的选择

生物信息学预测肿瘤新抗原的方法