生物医药：Chai-2模型发布掀起“AI抗体设计”风暴-摩熵咨询

报告内容

AI精读报告

报告摘要

　　2025年6月30日，OpenAI支持的ChaiDiscovery推出Chai-2，这款多模态生成模型展现出强大的抗体设计能力。Chai-2能够在不依赖现有抗体或高通量筛选的情况下，完全零样本生成抗体，实现了两位数的成功率，较传统方法提高了100倍。将原本需要几个月时间的抗体从头设计工作压缩至两周以内，显著加速药物发现的进程。

　　随着计算机算力和深度学习技术的迅速发展，尤其是生成式语言模型（如GPT系列）和表征式语言模型（如BERT系列）的出现，为抗体设计与优化提供了更为强大和高效的工具。同时，既往的抗体文库测序工作积累了大量序列数据。这些模型通过自监督学习大量抗体序列数据，挖掘潜在的抗体进化信息和共性特征，使得利用语言模型指导实验方法进行抗体开发成为可能。

　　随着语言模型辅助人工智能抗体设计与优化领域相关研究进展，出现大量有价值的研究成果。Bai和Chungyoun等提出抗体预训练语言模型构建、抗体序列生成以抗体三维结构预测为该领域的3个重要研究任务。

中心思想

Chai-2模型开创AI抗体设计新范式

本报告核心观点是，2025年6月Chai Discovery发布的Chai-2多模态生成模型，通过全原子扩散模型与抗原条件生成技术，实现了完全零样本的抗体从头设计。其成功率较传统方法提升100倍，设计周期从数月压缩至两周，标志着AI在抗体药物发现领域从辅助工具向核心引擎的跨越。这一突破颠覆了依赖杂交瘤、高通量筛选的传统流程，使基于靶点表位的理性设计成为可能。

扩散模型驱动抗体设计从“经验试错”转向“数据智能”

报告系统论证了基于扩散的生成模型在抗体设计中的双路径应用：一是全新抗体从头生成，基于抗原表位直接设计序列与结构；二是现有抗体的CDR优化，通过序列-结构协同去噪提升亲和力。模型依赖海量高质量抗体-抗原数据（如老子系统覆盖12万+配对、3300+靶点）进行训练，但当前仍面临准确性不足、忽视负样本、偏重亲和力而忽略成药性等局限，需结合流匹配、预训练LLM及负向数据策略进一步突破。

主要内容

第一章引言

概述人工智能在抗体设计中的发展背景：随着蛋白质语言模型（如GPT、BERT）和生成式扩散模型（如Chai-2）的兴起，抗体开发从传统“发现”模式转向“设计”模式。Chai-2基于全原子扩散模型，从靶点结构及表位残基出发，零样本生成特异性结合抗体的序列与全原子结构，将耗时数月的工作压缩至两周内，成功率达两位数，较传统方法提速100倍。该模型将“从头设计”与“条件生成”深度耦合，是抗体AI领域的里程碑事件。

第二章正文内容

2.1 背景介绍

抗体作为免疫系统关键分子，其结构由重链与轻链可变区（Fv）构成，其中互补决定区（CDR）赋予抗原结合特异性。传统设计方法（如杂交瘤、噬菌体展示）成本高、周期长，且难以靶向特定表位。随着计算技术发展，扩散模型因其强大的分布转换能力成为抗体设计前沿工具——通过逐步去噪随机噪声生成目标蛋白质结构与序列，可基于抗原信息实现条件生成，突破传统方法瓶颈。

2.2 抗体设计的扩散模型

扩散模型的核心是前向过程添加噪声与逆向过程迭代去噪。在抗体设计中，噪声可加在序列、结构或两者上。常用框架如DDPM，通过训练神经网络预测每一步去噪结果。抗体数据需经独热编码或2D距离矩阵等编码方式介入模型。扩散模型能基于抗原引导生成具有特定亲和力的抗体，是当前最有效的生成式抗体设计框架之一。

2.3 从头设计抗体的方法

RFdiffusion：微调自RoseTTAFold扩散模型，通过引入抗体框架距离矩阵及“热点”表位条件，生成单域纳米抗体，针对RSV、SARS-CoV-2等靶点亲和力达微摩尔至亚微摩尔级。
AntiBARTy Diffusion：基于BART语言模型与U-Net扩散，在6亿+抗体序列上训练，条件控制生成高溶解性抗体，但缺乏实验验证且无法靶向特异抗原。
EAGLE：利用语言模型嵌入与抗原表位结构信息生成完整Fv区域序列。
AbDiffuser：通过“对齐蛋白质混合器”架构，同时生成抗体三维结构与序列，高效计算但无法灵活基于靶点设计。

2.4 抗体优化设计的方法

DiffAb：序列-结构协同扩散模型，通过加噪-去噪生成新的CDR，与Rosetta相比在结合亲和力及结构恢复率上更优，并可通过调节步长生成高多样性序列。
属性引导采样与图神经网络增强：引入溶解性等优化目标与AlphaFold2注意力机制，提升界面捕捉能力。
扩散优化采样（NOS/LaMBO-2）：仅基于序列的采样方法，通过梯度引导优化任意目标，实验验证表达率与结合率高，优于基于结构的方法。

2.5 蛋白质通用设计扩散模型在抗体设计中的应用

通用蛋白质扩散模型（如EvoDiff、Chroma、RFdiffusion）可通过掩蔽CDR或整个抗体实现抗体设计。基于序列的模型（EvoDiff）从大规模数据学习，生成CDR后用结构预测工具折叠；基于结构的模型（RFdiffusion、Chroma）从PDB训练，通过主链二面角或贝叶斯后验生成结构，再配合ProteinMPNN分配残基。模体支架法保留框架，专门优化CDR。

2.6 老子抗体抗原数据系统

智慧芽开发的老子数据集是经过AI+人工审核的高质量抗体-抗原配对数据库，涵盖专利、文献、PDB、SAbDab等来源。截至2025年，包含12万+抗体抗原对、3300+靶点、2000+精确表位、2万+亲和力数据、2.4万+IC50/EC50数据，准确度>90%。与天然抗体库、PLabDab相比，在靶点覆盖和治疗性抗体数据结构化上优势显著，且计划2026-2027年持续扩充，为扩散模型训练提供关键高质量数据。

第三章全文总结

扩散模型在抗体设计中展现出巨大潜力：充分利用10亿+序列、8000+结构等大型数据库；擅长捕捉抗体-抗原界面复杂相互作用；减少对成本高昂的传统实验技术的依赖；可探索理论序列空间L20的广阔变异。但存在明显局限性：生成准确性需进一步验证；训练仅采用阳性数据导致无效抗体产生；忽略溶解性、免疫原性等关键成药属性。未来改进方向包括引入流匹配或随机插值算法、利用预训练大型语言模型加深对抗体特性理解、以及添加负向训练数据提升可靠性。Chai-2模型已将AI抗体设计推向新高度，但实现真正的临床药物开发仍需突破“生成→优化→验证”全链条瓶颈。

总结

本报告以Chai-2模型发布为切入点，系统阐述了基于扩散模型的AI抗体设计技术进展。核心成果是Chai-2实现了零样本、高成功率的抗体从头设计，将传统数月流程压缩至两周，标志着抗体药物发现进入“计算设计”时代。报告详细解析了扩散模型从理论到应用的完整框架：包括从头生成（RFdiffusion、AntiBARTy等）与CDR优化（DiffAb、NOS等）两大路径，并指出通用蛋白质扩散模型也可通过掩蔽策略适配抗体任务。高质量数据（如老子数据集提供12万+配对、90%准确度）是模型训练的基础。然而，当前方法仍面临准确性验证、阴性数据缺失、成药性属性忽视等挑战，需通过新算法、预训练语言模型及负向数据引入来完善。整体而言，AI抗体设计已从概念验证迈向实际应用，但要真正产出临床候选药物，仍需跨学科协作攻克评估标准与实验验证瓶颈。

报告正文