-
{{ listItem.name }}快速筛选药品,用摩熵药筛
微信扫一扫-立即使用
生物医药:Chai-2模型发布掀起“AI抗体设计”风暴
下载次数:
2814 次
发布机构:
智慧芽信息科技(苏州)
发布日期:
2025-09-30
页数:
27页
2025年6月30日,OpenAI支持的ChaiDiscovery推出Chai-2,这款多模态生成模型展现出强大的抗体设计能力。Chai-2能够在不依赖现有抗体或高通量筛选的情况下,完全零样本生成抗体,实现了两位数的成功率,较传统方法提高了100倍。将原本需要几个月时间的抗体从头设计工作压缩至两周以内,显著加速药物发现的进程。
随着计算机算力和深度学习技术的迅速发展,尤其是生成式语言模型(如GPT系列)和表征式语言模型(如BERT系列)的出现,为抗体设计与优化提供了更为强大和高效的工具。同时,既往的抗体文库测序工作积累了大量序列数据。这些模型通过自监督学习大量抗体序列数据,挖掘潜在的抗体进化信息和共性特征,使得利用语言模型指导实验方法进行抗体开发成为可能。
随着语言模型辅助人工智能抗体设计与优化领域相关研究进展,出现大量有价值的研究成果。Bai和Chungyoun等提出抗体预训练语言模型构建、抗体序列生成以抗体三维结构预测为该领域的3个重要研究任务。
本报告核心观点是,2025年6月Chai Discovery发布的Chai-2多模态生成模型,通过全原子扩散模型与抗原条件生成技术,实现了完全零样本的抗体从头设计。其成功率较传统方法提升100倍,设计周期从数月压缩至两周,标志着AI在抗体药物发现领域从辅助工具向核心引擎的跨越。这一突破颠覆了依赖杂交瘤、高通量筛选的传统流程,使基于靶点表位的理性设计成为可能。
报告系统论证了基于扩散的生成模型在抗体设计中的双路径应用:一是全新抗体从头生成,基于抗原表位直接设计序列与结构;二是现有抗体的CDR优化,通过序列-结构协同去噪提升亲和力。模型依赖海量高质量抗体-抗原数据(如老子系统覆盖12万+配对、3300+靶点)进行训练,但当前仍面临准确性不足、忽视负样本、偏重亲和力而忽略成药性等局限,需结合流匹配、预训练LLM及负向数据策略进一步突破。
概述人工智能在抗体设计中的发展背景:随着蛋白质语言模型(如GPT、BERT)和生成式扩散模型(如Chai-2)的兴起,抗体开发从传统“发现”模式转向“设计”模式。Chai-2基于全原子扩散模型,从靶点结构及表位残基出发,零样本生成特异性结合抗体的序列与全原子结构,将耗时数月的工作压缩至两周内,成功率达两位数,较传统方法提速100倍。该模型将“从头设计”与“条件生成”深度耦合,是抗体AI领域的里程碑事件。
抗体作为免疫系统关键分子,其结构由重链与轻链可变区(Fv)构成,其中互补决定区(CDR)赋予抗原结合特异性。传统设计方法(如杂交瘤、噬菌体展示)成本高、周期长,且难以靶向特定表位。随着计算技术发展,扩散模型因其强大的分布转换能力成为抗体设计前沿工具——通过逐步去噪随机噪声生成目标蛋白质结构与序列,可基于抗原信息实现条件生成,突破传统方法瓶颈。
扩散模型的核心是前向过程添加噪声与逆向过程迭代去噪。在抗体设计中,噪声可加在序列、结构或两者上。常用框架如DDPM,通过训练神经网络预测每一步去噪结果。抗体数据需经独热编码或2D距离矩阵等编码方式介入模型。扩散模型能基于抗原引导生成具有特定亲和力的抗体,是当前最有效的生成式抗体设计框架之一。
通用蛋白质扩散模型(如EvoDiff、Chroma、RFdiffusion)可通过掩蔽CDR或整个抗体实现抗体设计。基于序列的模型(EvoDiff)从大规模数据学习,生成CDR后用结构预测工具折叠;基于结构的模型(RFdiffusion、Chroma)从PDB训练,通过主链二面角或贝叶斯后验生成结构,再配合ProteinMPNN分配残基。模体支架法保留框架,专门优化CDR。
智慧芽开发的老子数据集是经过AI+人工审核的高质量抗体-抗原配对数据库,涵盖专利、文献、PDB、SAbDab等来源。截至2025年,包含12万+抗体抗原对、3300+靶点、2000+精确表位、2万+亲和力数据、2.4万+IC50/EC50数据,准确度>90%。与天然抗体库、PLabDab相比,在靶点覆盖和治疗性抗体数据结构化上优势显著,且计划2026-2027年持续扩充,为扩散模型训练提供关键高质量数据。
扩散模型在抗体设计中展现出巨大潜力:充分利用10亿+序列、8000+结构等大型数据库;擅长捕捉抗体-抗原界面复杂相互作用;减少对成本高昂的传统实验技术的依赖;可探索理论序列空间L20的广阔变异。但存在明显局限性:生成准确性需进一步验证;训练仅采用阳性数据导致无效抗体产生;忽略溶解性、免疫原性等关键成药属性。未来改进方向包括引入流匹配或随机插值算法、利用预训练大型语言模型加深对抗体特性理解、以及添加负向训练数据提升可靠性。Chai-2模型已将AI抗体设计推向新高度,但实现真正的临床药物开发仍需突破“生成→优化→验证”全链条瓶颈。
本报告以Chai-2模型发布为切入点,系统阐述了基于扩散模型的AI抗体设计技术进展。核心成果是Chai-2实现了零样本、高成功率的抗体从头设计,将传统数月流程压缩至两周,标志着抗体药物发现进入“计算设计”时代。报告详细解析了扩散模型从理论到应用的完整框架:包括从头生成(RFdiffusion、AntiBARTy等)与CDR优化(DiffAb、NOS等)两大路径,并指出通用蛋白质扩散模型也可通过掩蔽策略适配抗体任务。高质量数据(如老子数据集提供12万+配对、90%准确度)是模型训练的基础。然而,当前方法仍面临准确性验证、阴性数据缺失、成药性属性忽视等挑战,需通过新算法、预训练语言模型及负向数据引入来完善。整体而言,AI抗体设计已从概念验证迈向实际应用,但要真正产出临床候选药物,仍需跨学科协作攻克评估标准与实验验证瓶颈。
生物医药:2025年1-4月全球药企重磅交易报告
生物医药:Al AGENT技术跃迁 赋能药企研发智能化
生物医药:Deepseek在药企研发领域的本地化部署和应用场景
2025第1季度全球潜力靶点及FIC产品调研报告
摩熵咨询是摩熵数科旗下生物医药专业咨询服务品牌,由深耕医药领域多年的专业人士组成,核心成员均来自国际顶级咨询机构和行业标杆企业,涵盖立项、市场、战略、投资等从业背景,依托摩熵数科丰富的外部专家资源及全面的医药全产业链数据库,为客户提供专业咨询服务和定制化解决方案
对不起!您还未登录!请登陆后查看!
您今日剩余【10】次下载额度,确定继续吗?
请填写你的需求,我们将尽快与您取得联系
{{nameTip}}
{{companyTip}}
{{telTip}}
{{sms_codeTip}}
{{emailTip}}
{{descriptionTip}}
*请放心填写您的个人信息,该信息仅用于“摩熵咨询报告”的发送