当前位置:

首页 新闻中心
新闻动态

浦江发布

会议季活动

金句荟萃

“燧人”亮相,“女娲”上新!上智院在2025浦江创新论坛发布系列科学智能新成果
发布时间:2025-09-22

9月21日, 在2025浦江创新论坛(第十八届)人工智能赋能科学研究专题论坛上,“2025人工智能赋能科学研究共创成果”重磅发布,集中展示了我国在科学智能领域取得的突破性进展。上海科学智能研究院(下称上智院)牵头研发的燧人催化大模型、女娲RNA大模型和女娲蛋白状态迁移大模型集中入选。

具体而言,燧人催化大模型统一催化合成预测框架,在实际反应中将反应选择性提升3倍,推动有机合成研发与化工生产向智能化升级。作为领域内首个生成式原生的多模态RNA大模型,女娲RNA大模型整合十亿级多模态数据,在数十项基准测试中取得最优结果,助力核酸药研发。女娲蛋白状态迁移大模型实现亚微秒级别蛋白质动态过渡路径预测,并构建行业最大的全原子精度蛋白质构象采样数据集,为蛋白质动态机制研究与药物设计提供强大支持。

三大模型及相关高质量数据集将于近期在星河启智科学智能开放平台上线,向科研和产业界及广大开发者开放使用。

微信图片_2025-09-22_150535_676
(上智院科研副院长、复旦大学人工智能创新与产业研究院副院长程远出席“2025 年度人工智能赋能科学研究十大代表性案例成果”发布仪式)


燧人催化大模型:革新AI算法框架,开启分子合成“智驾”新时代

基于人工智能的精准合成长期面临一个根本挑战:合成路线规划(即序列生成)与反应性能预测(即数值回归)在方法与模型上相互割裂,这严重阻碍了高效、统一的深度学习框架的建立。突破这一瓶颈,已成为推动化学研究从“经验试错”向“智能设计”范式变革的关键。

燧人催化大模型应需而生。由上智院、复旦大学、浙江大学联合研发,模型可同时实现对反应活性、选择性及单步正向与逆向合成的精准预测,如同为化学家配备了一位精通合成设计与效果优化的“AI科研伙伴”,极大提升了催化研究的整体性与智能化水平,助力重塑化工与制药产业创新格局。

团队基于超过1300万条反应数据进行预训练,使模型能够自发学习化学键的变化规律、提取深层次认知,从而在反应活性、选择性的15个指标中有13个指标达到领先水平,在反应正向与逆向合成预测任务的16个指标中有14个达到领先水平,相关工作将作为Nature Machine Intelligence九月刊封面文章发布。

此外,学术层面,该模型已与中国科学院上海有机化学研究所合作,在实际反应中实现选择性提升3倍,大幅提高了有效生成目标产物的效率,显著减少了项目的湿实验次数、原料浪费和副产物;产业层面,模型已通过大型化工企业应用测试,有望在实际工业化生产环境中落地。

值得一提的是,本次大会发布是上智院物质科学领域大模型的首度公开亮相。燧人氏作为钻木取火的发明者,曾引领华夏民族实现从自然物质到能源利用的重大跨越,以此命名彰显了该模型在物质转化与使用的开拓性使命。

5c8dfa0b1a7b9f490b126b756aae21c7

女娲RNA大模型:涌现深层认知,掌握RNA的语言语法

RNA作为生命体内的“精密软件”,影响着遗传信息传递、基因调控、催化等核心生物过程,这使得其作为一种全新的药物模态,在解决传统药物难以应对的“不可成药”靶点方面拥有独特优势。然而,由于其功能受到序列、结构、修饰等多维度因素的复杂影响,理性设计功能性RNA分子一直是科学领域内的重要问题。

基于星河启智科学智能开放平台,由上智院和复旦大学联合攻关的女娲RNA大模型,整合了10亿级RNA序列、结构、修饰、RNA结合蛋白等多模态数据,涵盖mRNA、ncRNA等大多数RNA种类,开创性将多种与RNA设计息息相关的模态融合于一个大模型范式之下,构建了领域首个生成式原生的多模态RNA大模型,将有力赋能创新核酸药设计场景。

该模型通过学习海量序列数据,涌现出对RNA折叠物理、调控语法等关键生物学特征的深层认知,有效克服了RNA自身的高度多样性与复杂性,如同一台“RNA生物学模拟器”,为理解其功能、掌握RNA的“语言语法”提供了前所未有的工具。

这些深层认知进而转化为超30项国际基准测试中的顶尖表现,在RNA结构预测、逆折叠、转录丰度预测等数十个基准任务中取得最优结果,优于Evo2等基因领域专有模型,将相关研究从“实验试错”推向“计算引领”,大大加速生命科学领域对RNA的深度研究。

5c8dfa0b1a7b9f490b126b756aae21c7

女娲蛋白状态迁移大模型:让蛋白质动起来,助推AI药物设计落地

在生命活动中,蛋白质并非静态的“照片”,而是时刻处于动态变化的“影片”,其功能奥秘正藏于运动之中。尽管静态结构为学术研究和传统方法提供了基础,但唯有啃下动态变化这一“硬骨头”,才能真正推动AI模型在药物设计等实际场景中落地应用。

为此,上智院和复旦大学联合构建了全球最大规模、最长时间尺度的蛋白质 4D 动态数据库——dynamicPDB,系统收录了 1.26 万条微秒级全原子构象演化轨迹,覆盖上百种典型折叠类型与功能家族,呈现从亚纳秒局部震荡到微秒级大尺度转变的完整过程。所有轨迹均基于高精度分子动力学模拟生成,并经过统一清洗、拓扑注释和时空对齐处理,可直接支持构象转变机制解析、自由能面重建、AI 生成模型训练等研究。发布不到一年,dynamicPDB 已在开源社区获得超过 760 颗Star、近百名关注者和 130 余个分支,迅速成长为全球蛋白质动力学研究的重要基础设施之一。

在此基础上,团队创新开发出4D diffusion 模型——女娲蛋白状态迁移大模型,首次实现了从蛋白质序列与首帧结构出发,生成未来 32 帧全原子构象演化轨迹和未来4个结构状态迁移的能力。该模型通过空间模块与运动对齐模块联合建模构象间的时空依赖,能够生成在低维动力学空间上与真实分子动力学仿真高度一致的轨迹,其准确性已可与领域知名模型 AlphaFlow 比肩,同时展现出更高的采样多样性,能够捕捉更多潜在中间态与构象分支。

dynamicPDB 与 4D diffusion 模型的结合,标志着蛋白质研究正从静态结构解析迈向动态演化生成的全新范式,为结构预测、功能推断与药物设计等领域打开巨大想象空间。

5c8dfa0b1a7b9f490b126b756aae21c7

上一条:AI“碰撞”量子 一场颠覆未来的创新变革在这里诞生

下一条:未来启点社区成立,上海用百亿耐心资本培育顶尖人才,打造“超级链接器”加速颠覆式创新

扫一扫加关注

官方微信服务号

官方微信订阅号

官方微博

版权所有 上海浦江创新论坛中心 沪ICP备18034787号-1 沪ICP备05040256号-8 沪公网安备 31010402009841号