在免疫学领域,CD8+T 细胞在抵抗病毒感染、癌症以及自身免疫疾病中扮演着至关重要的角色。

因此,准确预测 T 细胞受体(TCR,T cell receptor)与主要组织相容性复合物(MHC,Major Histocompatibility Complex)的相互作用,对于理解免疫反应的机制至关重要。

尽管现阶段已有一些算法能够预测免疫复合物的结构,但这些方法存在不同程度的局限性,尤其是在处理多步骤生物化学反应和未识别问题的情况。

这些问题的复杂性在于,它们涉及多个步骤的信号级联反应,而现有的算法往往无法准确捕捉这些复杂的相互作用。

为解决上述问题,澳大利亚莫纳什大学宋江宁教授团队提出了一种基于对比学习和迁移学习的深度学习模型(EPACT,epitope-anchored contrastive transfer learning),能够更准确地预测 TCR 与 MHC 的结构,并整合序列数据和结构数据。

对比学习使得对免疫优势表位的高精度预测,以及表位特异性 T 细胞的可解释分析成为可能。

宋江宁表示:“我们研究了疫苗接种后的高速反应性 T 细胞,发现预测的结合强度与疫苗接种后的特异性反应之间存在良好的关联性。这表明我们的模型学到了背后的关键模式,不仅能够预测 TCR 的交叉活性,还可以识别氨基酸水平上的重要接触残基。”

EPACT 模型可以用于预测新生抗原,这对于癌症免疫疗法和疫苗设计至关重要。此外,该算法还可以用于筛选具有高交叉反应性的 TCR,对于疫苗设计、免疫疗法以及理解免疫反应的分子机制具有重要意义,并有望基于该模型设计出更有效的治疗方案。

科学家提出深度学习新模型,精准预测T细胞受体与抗原相互作用
图丨莫纳什大学博士生张昱朦(左)与宋江宁教授(来源:宋江宁)

宋江宁指出,尽管谷歌 DeepMind 开发的 AlphaFold 算法在蛋白质结构预测方面取得了巨大成功,但在免疫学领域仍需要更精确的算法,来捕捉氨基酸水平上的关键热点区域。

新算法的创新之处在于,其能够处理 MHC I 类和 II 类数据,这些数据在蛋白质结构数据(PDB,ProteinData Bank)数据库中相对丰富,为算法提供了良好的起点。

此外,该算法还采用了转移学习技术,能够从序列数据中学习,并将其应用于结构预测。该算法在预测氨基酸水平上的关键接触残基方面取得了显著进展,这对于理解 TCR 与表位之间的复杂结构相互作用至关重要。

科学家提出深度学习新模型,精准预测T细胞受体与抗原相互作用
(来源:Nature Machine Intelligence)

EPACT 模型在新生抗原预测、T 细胞免疫反应预测、高通量筛选和疫苗设计等领域具有广泛的应用潜力。

第一,新生抗原预测。EPACT 模型能够预测肿瘤细胞因突变产生的新生抗原,这对于开发个性化癌症疫苗和免疫疗法至关重要。通过分析 TCR 与肽-MHC 的结合特异性,有助于识别肿瘤特异性免疫反应。

第二,T 细胞免疫反应预测。EPACT 模型能预测 T 细胞免疫反应的变化,包括低频 T 细胞亚群的交叉反应性。它揭示了某些 T 细胞对特定抗原的反应机制,以及如何提高治疗的交叉反应性,因而对于筛选和优化 T 细胞免疫疗法至关重要。

第三,高通量筛选。EPACT 模型可应用于高通量筛选,基于测序数据筛选可能引发免疫反应的抗原表位,有利于发现不常见但具有免疫原性的抗原表位。

第四,疫苗设计。EPACT 模型可以指导疫苗的开发设计,预测哪些氨基酸残基对 T 细胞激活最为关键。

审稿人之一对该研究评价称,“EPACT 模型在多个应用领域展现了其潜力,包括分析特定表位的 TCR 簇、疫苗接种后对 SARS-CoV-2 产生反应的 TCR,以及 TCR 的交叉反应性案例。这些应用不仅展示了 EPACT 在推动基于 T 细胞的免疫疗法和疫苗开发方面的潜力,而且为计算生物学和免疫学领域提供了一个创新的工具。”

另一位审稿人则认为,该团队所开发的 AI 模型预计将为 TCR-表位相互作用机制提供重要见解,并将成为更广泛研究社区的有用工具。

日前,相关论文以《基于表位锚定的对比迁移学习在配对 CD8+T 细胞受体-抗原识别中的应用》(Epitope-anchored contrastive transfer learning for paired CD8+T cell receptor–antigen recognition)为题发表在Nature Machine Intelligence[1]。

莫纳什大学博士生张昱朦是第一作者,莫纳什大学宋江宁教授和上海交通大学欧竑宇教授担任共同通讯作者。

科学家提出深度学习新模型,精准预测T细胞受体与抗原相互作用
图丨相关论文(来源:Nature Machine Intelligence)

接下来,该课题组将致力于提升技术并优化升级,特别是在处理由大规模多等位基因产生的免疫数据方面。

目前,大多数方法在处理这类数据时效果并不理想,因此研究人员希望开发出一款高精度模型,从生物机制的理解出发,逐步解决从数据预处理到分析的每个步骤,以实现精确预测免疫肽对免疫原性的能力。

“这将有助于我们改进下一代 TCR 设计。”宋江宁说。为此,他们将利用高质量数据和更全面的 MHC 等位基因数据,来增强模型的性能。

同时,该团队还计划整合多种关键免疫细胞类型的数据,包括 T 细胞、B 细胞等,以及与食物过敏等相关的非感染性免疫反应的细胞类型,以更加全面地理解和预测免疫反应的复杂性。

参考资料:

1.Zhang, Y., Wang, Z., Jiang, Y. et al. Epitope-anchored contrastive transfer learning for paired CD8+T cell receptor–antigen recognition.Nature Machine Intelligence(2024). https://doi.org/10.1038/s42256-024-00913-8

运营/排版:何晨龙