新智元报道

编辑:LRST

【新智元导读】免疫系统通过识别抗原的特定片段(表位)来判断是否启动免疫反应,但准确预测表位的免疫原性极具挑战。耶鲁大学等将免疫原性预测拓展为多模态建模,整合序列、三维结构和生化属性,显著提升预测性能并增强可解释性。该方法还针对癌症免疫的特殊性设计对比学习策略,有效利用稀缺数据,为疫苗设计和免疫治疗提供新思路。

当抗原进入人体或在体内产生时,免疫系统需要通过一套复杂机制判断其是否为「敌人」,并据此激活免疫反应,这一可被识别并触发反应的特性被称为免疫原性

然而,免疫系统并不会对所有抗原片段作出反应,它真正「看到」的往往只是少数关键片段,即表位(epitopes)。

疫苗设计正是利用这一机制,试图通过人工方式呈递特定表位来诱导免疫反应。表位是否具有免疫原性并非由单一因素决定,而是一个多阶段、强依赖上下文的过程。

因此,即便序列高度相似的表位,其免疫原性也可能截然不同,使得免疫原性的准确预测本身极具挑战。

现有主流方法往往将抗原简化为一维氨基酸序列,并基于卷积神经网络或语言模型进行建模,这类方法在一定程度上有效,但忽略了蛋白质在三维空间中的真实结构形态以及由此产生的空间相互作用,从而在预测精度和结果可解释性上存在天然局限。

近日,针对这些局限,耶鲁大学与霍华德·休斯医学研究所的研究团队提出ImmunoStruct,其核心思想是免疫原性不仅取决于序列本身,还受到空间构型、表面暴露特性以及多种生化相互作用的共同影响,ImmunoStruct将免疫原性预测从一维序列建模拓展为多模态建模问题


论文链接:https://www.nature.com/articles/s42256-025-01163-y

代码链接:https://github.com/KrishnaswamyLab/ImmunoStruct

从「一维序列」到「多模态结构」

ImmunoStruct的核心思想

具体而言,ImmunoStruct同时整合了三类互补信息:序列信息、由AlphaFold2预测得到的三维结构信息,以及使用物理模型从结构与序列中计算出的生化属性(图1)。


图1:ImmunoStruct的框架概览

模型通过变分自编码器学习紧凑而连续的序列表示,通过等变图神经网络刻画三维结构空间关系与相互作用,并通过多层感知机建模生化特征。

在此基础上,它采用多模态注意力机制对不同模态的信息进行协同融合,使模型能够根据具体样本动态关注对免疫原性最具判别力的结构、序列或生化特征。

这种从「序列」走向「结构–序列–生化属性」联合建模的策略,使ImmunoStruct不仅在预测性能上显著优于现有方法,也首次实现了对免疫原性结构决定因素的可解释建模,为表位疫苗设计中免疫原性筛选提供了更符合生物学机制的计算框架。

另外,针对癌症免疫数据稀缺、有效免疫信号更难获取的问题,研究团队进一步从癌症免疫的基本特性出发进行了建模设计。

与感染性抗原不同,癌症相关的突变往往源自人体自身蛋白,免疫系统在发育过程中已对「正常版本」形成耐受,因此大多数突变并不会引发免疫反应;只有当突变显著改变了免疫系统「看到」的关键特征时,才可能被识别为异常并触发反应。

基于这一差异性,ImmunoStruct引入了基于突变型与对应野生型序列的对比学习策略(图2):当突变不具备免疫原性时,模型学习将二者在表示空间中拉近;而当突变产生免疫原性时,则学习将二者明确区分开来,从而直接围绕「突变是否带来有效变化」这一核心问题组织表示学习。


图2:针对癌症数据的「突变型/野生型」对比学习策略

同时,该对比目标还鼓励不同特征维度捕捉互补信息,减少表示退化,使有限的癌症免疫数据能够被更高效地利用,并显著提升下游预测性能。

研究团队在多类免疫相关数据集上对ImmunoStruct进行了系统评估,涵盖传染病(IEDB数据集)与癌症(CEDAR数据集)的免疫原性预测任务。

实验结果显示,相较于主要依赖序列信息的既有方法,ImmunoStruct在免疫原性预测性能上取得了稳定提升。


图3: 在传染病数据集IEDB上的表现

模型为什么会这么判断?

结构层面的线索开始显现

为了理解ImmunoStruct的预测依据,研究团队进一步分析了模型中的结构注意力机制。

结果显示,模型并非平均利用所有输入信息,而是学会将注意力集中到少数具有判别力的空间位置。在高免疫原性样本中,注意力显著富集于抗原分子中部且更容易向外暴露的区域,而非主要承担结构锚定作用的位置(图4)。


图4: 一些模型可解释性的分析

进一步分析发现,这些被重点关注的位置在免疫原性样本中呈现出更高的一致性,暗示模型捕捉到的是稳定的结构特征而非偶然的序列差异。将注意力模式映射回已知的三维结构后可以看到,模型关注的区域与真实分子识别界面高度一致,为预测结果提供了直观的结构解释。

这种结构感知能力也使ImmunoStruct能够区分极其细微的突变差异,在癌症新抗原的案例中,即便仅相差一个氨基酸,模型仍能通过捕捉局部空间构型的变化给出不同的免疫原性预测,表明其判断是建立在可解释的结构线索之上的。

在更接近真实生物医学场景中的进一步验证

为了检验模型在真实生物医学任务中的有效性,研究团队进一步在实验数据和临床数据上对ImmunoStruct进行了独立验证(图5)。


图5: 一些在实验数据和临床数据上的验证结果

在实验层面,作者针对一组来源于 SARS-CoV-2 的候选表位开展了体外免疫实验。结果显示,ImmunoStruct 在未参与实验设计的情况下,能够准确预测大多数实验测得的免疫反应,整体表现与实验结果高度一致,表明模型学到的信号具有可转移的生物学意义。

更进一步,研究团队将ImmunoStruct应用于接受免疫治疗的癌症患者队列,并基于模型预测的免疫原性水平对患者进行分组。在无需任何再训练的情况下,ImmunoStruct的预测结果能够有效区分患者的生存期,且表现优于常用的突变负荷等指标。这表明,模型不仅能够在受控实验条件下做出合理判断,也能够在高度复杂、异质性极强的临床数据中捕捉与治疗结局相关的免疫信号,展现出潜在的临床转化价值。

意义与展望

总体而言,ImmunoStruct展示了一种从「一维序列建模」迈向「多模态结构感知学习」的新范式:通过联合利用序列、空间结构与生化特征,并引入可解释的注意力机制与对比学习策略,模型不仅提升了免疫原性预测性能,也揭示了哪些结构线索真正驱动模型决策。

这一工作表明,在复杂生物问题中,将深度学习与结构信息和领域知识相结合,能够在有限数据条件下同时获得更强的泛化能力与更高的可解释性,为精准疫苗设计、蛋白功能预测以及更广泛的结构感知机器学习任务提供了可推广的思路。

参考资料:

https://www.nature.com/articles/s42256-025-01163-y

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!