科学智能十大前沿观察发布,四个自研科学大模型集中推出!科学智能创新论坛举行

发布者:徐洪菊发布时间:2024-11-14浏览次数:11

 复旦大学新闻网11月12日电  11月11日,“科学智能十大前沿观察”和复旦联合上海科学智能研究院(以下简称“上智院”)自研的四个科学大模型在科学智能创新论坛上重磅发布,其中Planet Intelligence @Climate(PI @ Climate)大语言模型为中国首个自研气候领域大语言模型。

论坛汇聚全球顶尖科学家和行业翘楚,围绕AI Science双螺旋引擎的构建展开深入讨论,探寻人工智能与生命科学、材料科学、化学、物理学、地球科学、海洋科学、社会科学等众多科学领域的前沿创新、落地场景与产业实践。

论坛上,上智院与复旦大学、德勤管理咨询(上海)有限公司、上海海洋大学以及国家蛋白质科学研究(上海)设施签署了三项重要合作协议,并为第二届世界科学智能大赛获奖者颁奖。

复旦大学党委书记裘新,中国科学院院士、北京科学智能研究院理事长、北京大学国际机器学习研究中心主任鄂维南,美国国家科学院院士、加利福尼亚大学旧金山分校药物化学系教授William F. DeGrado,上海市委组织部副部长、市人才局局长潘晓岗,上海市徐汇区委副书记、区长王华,复旦大学常务副校长许征,上海市科学技术委员会副主任屈炜,上海市经济与信息化委员会副主任张宏韬,上海市教育委员会副主任刘力,复旦大学党委副书记、上海医学院党委书记袁正宏,上海海洋大学党委书记王宏舟,中科院上海高等研究院党委副书记唐铮,德勤中国主席蒋颖,分子之心创始人、国际计算生物学会Fellow许锦波,上智院院长、复旦大学浩清教授漆远出席。

裘新、王华、屈炜、张宏韬、刘力致辞。复旦大学校长助理、上智院理事长、上海创智学院副院长吴力波主持。

论坛在复旦大学枫林校区举行,由上海市科学技术委员会和徐汇区人民政府指导,复旦大学、上智院主办,上海交通大学、西湖大学、上海创智学院及集智俱乐部共同协办。论坛也是由中华人民共和国科学技术部与上海市人民政府联袂主办的2024浦江创新论坛的主题论坛之一。

 深度发展科学智能,打造强泛用性、高性能模型

“服务新质生产力发展,是提升创新策源能力、支撑引领中国式现代化的重要使命。复旦作为这场科技变革的见证者、参与者,始终积极探索科学智能发展新范式,打造人工智能产业创新和人才培育高地。”裘新表示,在上海市的战略布局下,复旦以上智院为支点,推动科学智能深度发展,初步构建了人工智能课程体系和AI+复合型学位人才培养体系,全校AI4S科研团队已超过一百个,并正在着力推进科学智能的成果运用和产教融合。

以“分子设计的基座模型Uni-Mol”为题,鄂维南在演讲中分享了其团队研发的Uni-Mol分子设计模型,其参数量达到1.1B,是目前最大3D分子基座模型。他表示,分子设计已进入深度学习和生成模型方法阶段,面对碎片化、环节多、数据稀缺等问题,基于分子基座模型的通用分子设计将是解决这些挑战的一个有效方法。当前,Uni-Mol已在面向药物分子设计的高效分子对接、OLED发光分子设计、面向多种气体分离的有机金属框架材料分子设计、浸没式冷却液设计、面向锂电池的电解液配方设计等方向上得到应用。他呼吁进一步加强数据共享和开放,与实验形成自动化闭环,从而推动泛用能力更强、性能更好的分子基座模型的研发。

 AI与Science双向奔赴、深度融合,科学智能十大前沿领域有哪些?

随着2024年诺贝尔物理学奖和化学奖授予了人工智能相关研究,科学智能及其研究方向引发了从科学家到公众的广泛关注。在与从事科学智能领域前沿研究学者的大量深度访谈基础上,上智院联合合作伙伴,共同概括科学智能新范式,并梳理和凝练了科学智能的十大前沿方向。

“什么是科学智能?我们尝试给出一个全新的定义。” 上智院院长漆远在“科学智能前沿观察”中指出,科学智能(AI X Science)是一个新兴的跨学科研究领域,它致力于融合人工智能(AI)与领域科学,其研究方向和驱动力可以形象地表述为“双螺旋引擎“:其一,将AI技术应用于具体学科的新兴研究方法(AI for Science);其二,将具体领域学科知识用于AI算法和架构的理解和改进工作(Science for AI)。

此次发布的 “科学智能前沿观察”涵盖AI for Science、Science for AI和科学智能基础设施三个维度,其中,AI for Science的前沿方向包括垂直领域科学大模型、融入先验知识的AI模型、基于LLM模型的科学研究、从提出假设到自动验证的AI科学家、以及复杂世界的多智能体建模;Science for AI的前沿方向则覆盖了物理世界的第一性原理和科学启发的可解释AI新架构;科学智能基础设施前沿方向包括合成数据和新型智能计算。展望未来,面向可信可解释的科学世界模型和上述九个方向共同构成科学智能十大前沿。

“未来渴望有更多的科学智能研究成果问鼎诺贝尔奖。”漆远表示,上智院联合合作伙伴发布“科学智能前沿观察”的初心,就是希望推动和支持更多AI和基础研究领域的科学家,深度融合无缝合作,共同探索科学智能的新未来,打造能够自主发现复杂世界未知规律的“AI爱因斯坦”。

 复旦四大AI模型齐上线,取得多项重要突破

  •  中国首个自研气候领域大语言模型

上海科学智能研究院首席战略官、复旦大学兼职教授杨燕青主持成果发布环节。

在《联合国气候变化框架公约》第二十九次缔约方大会(COP29)之际,复旦大学联合上智院、上海创智学院推出了Planet Intelligence @Climate(PI @ Climate)大语言模型,旨在为气候变化领域的科学研究、国际气候谈判和政策分析提供全面的知识支持。团队负责人吴力波形象比喻:“它相当于一个气候变化科学家。”

气候变化科学研究具有高度的跨学科特征,覆盖了农学、林学、能源科学、水利工程、环境科学、管理学、经济学、政治学、法学等众多学科,这也是为什么应对气候变化的全球行动必须要基于链接地球系统、自然系统、社会经济系统的综合评估模型来指引的重要原因所在。

科学家们该如何围绕气候变化来找到覆盖面最广、最有效的数据、模型、机理和政策?据介绍,从有价值的信息种子识别,到领域发现,再到模型精炼,团队不仅做了技术创新,还引入了超过2600亿词汇量的气候变化领域知识,是目前已知气候变化大模型当中最多的。为加强对专业领域的知识理解能力,团队邀请国家级气候变化专业科研机构、顶尖高校的100多名气候变化领域专家参与研究,从超过4万条的问答对中筛选出近2万对高质量的问答对,来加强专业知识的监督对于模型专业能力的提升。

在气候变化这一高度跨学科的领域中,模型专业能力的评测工作是一项巨大的挑战,团队在这一难题上也取得显著突破。“我们跨越46个学科领域,构建了约7740道气候评测问题的数据集,填补了当前气候领域大模型评测数据集的空白。”吴力波解释道。

未来,国际气候治理、气候投融资领域、能源电力系统低碳技术发展领域都是该模型的重要使用场景。为让模型更好理解使用者的问题,团队构建了智能体,通过思维链训练提升模型的逻辑推理能力,模仿人类在针对气候变科学问题时思考的过程。据悉,PI at Climate评测链接已得到中国气候代表团的专家们的试用,对方反馈“很专业”。

  •  AI助力解码基因“暗物质”

女娲模型的命名富有深意,源自中国古代神话,象征着对生命科学规律的探索和掌握。“我们希望这个模型能够像女娲造人一样,掌握人体生命科学的基本规律。” 复旦大学人工智能创新与产业研究院副院长、研究员、上智院AI科学家程远介绍,其团队研发的女娲基因导航基础模型,基于图神经网络预训练和知识图谱技术,能够支持高精度预测单细胞分辨率的长程基因调控关系。尤其在调控距离超过100kb的远端调控关系预测任务上,该模型的预测精度相较于现有方法提升了一倍以上。

在DNA序列中,占DNA约98.5%的非编码区域对编码区的表达量有着调控作用。某些基因非编码区域的变异会导致如急性白血病、小白鼠肢体发育不良等疾病。然而,在非编码区域研究方面,由于基因 “暗物质”分布广、与调控位点距离远、且基因调控在不同细胞差异明显,此前AI的应用相对较少且面临诸多挑战。

为攻克这些难题,研发团队设计了女娲基因导航基础模型,其能够对基因组非编码的“暗物质”区域进行功能注释,发现复杂疾病的机制和可能的疾病治疗靶点。目前该模型在不同细胞组织调控关系预测精度上表现优异,与实验验证结果相比,精度可达85%以上,在长距离调控关系预测精度上更是比现有最好模型高一倍以上,如在大脑皮层、大脑前额叶、骨髓等细胞组织上均有出色表现。

女娲基因导航基础模型的产业潜力巨大。通过发现新的疾病靶点,该模型不仅能开发自有IP的药物,还能为合作企业提供新靶点发现服务,同时也能为合作企业提供已知靶点的计算验证服务,为新药研发和疾病治疗带来革命性变化。

借助女娲基因导航基础模型,研究人员已在实际应用中有了重要发现。例如在对阿尔茨海默症病人基因突变情况分析中,通过共性非编码区变异情况找到了新靶点,为阿尔茨海默症药物研发开辟了新路径。这一模型的出现,将推动生命科学在微观领域研究迈向新的高度,在未来的医学和药物研发等领域有望产生深远影响。

  •  革新生命流体模拟与医疗应用

生命中的流体分析,如血液在血管中的流动、呼吸时口腔到肺部的气流甚至妊娠分娩时羊水的状况等,对生命健康的研究与临床实践都极为关键。程远团队研发女娲生命流体基础模型,是基于医学图像预训练的物理保守端到端模型,能够支持复杂几何形状的高精度物理流场模拟。

模型通过医学图像几何约束与物理学方程约束,在实际临床场景里针对复杂血管几何进行高精度血液流体动力学模拟时表现优异。以实际血管几何数据为例,它能够实现仅8%的速度物理场模拟误差,这一数据大幅超越了JMLR 2024上发表的方法,并且计算效率相较于传统CFD提升了百倍之多,极大地提高了模拟的精准性与时效性。

该模型在生命体复杂管网流速预测上误差极低,仅为0.06米每秒。在临床实际应用场景中,模型可以辅助壁面剪切力与血管壁增厚关联分析等方面的科学研究,以及脑动脉瘤破裂风险预估等临床诊断。未来,该模型还可以在众多心脑血管疾病的智能诊疗发挥产业潜能,诸如心血管血流模型分析、脑动脉瘤破裂风险预估、动脉血管狭窄支架设计等。

目前,该模型已经顺利完成流体模拟计算流程搭建,与附属华山医院在脑血管瘤风险评估场景深入合作并应用于临床,同时与附属口腔医院合作评估口腔及扁桃体畸形对气流影响,还与其他医院携手模拟心脏内部畸形或病变时的血流情况,这些合作都将有力推动医疗健康技术的进步与发展。

  •  突破AlphaFold3在动态结构预测上的局限性

在生命科学与药物研发领域,理解蛋白质、RNA、DNA以及小分子如何在生物体内相互作用对于揭示多蛋白质结构-功能关系和药物开发至关重要。复旦大学人工智能创新与产业研究院研究员、上智院AI科学家朱思语团队研发的女娲生物分子结构大模型,是业内首个基于扩散模型的蛋白质动态3D结构预测模型,该模型突破了AlphaFold3在动态结构预测上的局限性。

该模型依据不同数据特性,采用不同分子处理等级,统一至token等级,以获取生物分子复合结构的几何embedding信息。同时,该模型利用共进化信息与Template信息,建模复合物中各个原子之间的作用关系,并通过扩散模型实现原子级别的坐标建模,捕捉蛋白质和其它生物分子的相互关系,达到了Alphafold3的同等水平。

AlphaFold3作为蛋白质结构预测领域的佼佼者,以其静态结构预测能力著称,然而,生物结构的复杂性远不止静态形态。女娲生物结构大模型通过动态结构生成技术,能够模拟生物分子在微观状态下的动态变化,其动态精度比既有机器学习方法提高 50%,能够实现长达32个时间点和256序列长度的动态结构预测,这一创新使得模型能够捕捉到生物分子在不同时间和条件下的行为,为生物医药研究提供了更为精确的数据支持。

此外,该模型还能根据物理条件,如温度、加速度和力等条件信息,对生物结构进行精确控制和预测。同时还能够生成多种蛋白质构象,这有助于识别潜在的药物结合位点,从而加速新药的发现和开发。其中,基于扩散模型构建的蛋白质多构象采样算法表现卓越,相较于现有的SOTA的alphaflow算法,在精确度基本持平的情况下,采样多样性提升了50%。

研发团队的目标是创建一个能够全面模拟生物结构多样性的模型,以辅助制药流程和药物筛选,未来应用前景广阔,尤其在生物医药合成领域,有望通过模拟方式减少实验需求,提高药物研发效率,为生命科学研究和药物开发带来新的曙光。

 签署三项重要合作协议,推动深化科学智能生态建设

上智院与复旦大学、德勤管理咨询(上海)有限公司、上海海洋大学以及国家蛋白质科学研究(上海)设施签署三项重要合作协议,以进一步推动深化“1+1+N”科学智能生态建设。这些合作将整合多方资源,共同推进科学智能领域在金融、工业制造、生物科技、远洋渔业等行业的创新应用,促进人工智能与各产业的深度融合。

复旦大学、德勤管理咨询(上海)有限公司与上智院签署的三方合作协议,将在科学智能领域建立多层次合作生态圈,为AI人才提供从教育到产业的全链条支持,以实现AI在金融、工业、健康管理及城市治理等领域的深度应用。三方将聚焦于人工智能、生命科学、智能制造等前沿领域的科研突破,定期发布科学智能行业白皮书,构建高水平的科学智能智库与产学研用全链条对接平台,为相关政策和产业发展提供前瞻性建议。

上智院与国家蛋白质科学研究(上海)设施的合作意向书,将生物数据与人工智能紧密结合,为科学智能生态系统注入强劲动力。作为本次合作的核心,上智院将通过战略规划与技术创新,带动生物数据处理和科学大模型的研发。国家蛋白质科学研究设施提供逾二十万条生物大分子结构数据及冷冻电镜数据,双方将以此为基础,集中攻克生物数据分析与智能算法应用的关键难题,推动生物数据深度处理与智能化的突破,为生命科学的技术创新和成果转化提供有力支持。

此外,上海海洋大学与上智院共同成立“渔业渔情校企智能远洋渔业联合实验室”,并以此建立一个长期且稳定的产学研合作机制。上海海洋大学将向上智院提供远洋渔业等领域的珍贵数据资源,而上智院则将利用其在人工智能领域的先进技术,尤其是伏羲系列气象大模型,对这些数据进行深入分析和处理。双方将在数据共享、算法优化及产品研发方面展开深入合作,为远洋渔业的可持续发展提供前沿科技支持。

该模型依据不同数据特性,采用不同分子处理等级,统一至token等级,以获取生物分子复合结构的几何embedding信息。同时,该模型利用共进化信息与Template信息,建模复合物中各个原子之间的作用关系,并通过扩散模型实现原子级别的坐标建模,捕捉蛋白质和其它生物分子的相互关系,达到了Alphafold3的同等水平。

AlphaFold3作为蛋白质结构预测领域的佼佼者,以其静态结构预测能力著称,然而,生物结构的复杂性远不止静态形态。女娲生物结构大模型通过动态结构生成技术,能够模拟生物分子在微观状态下的动态变化,其动态精度比既有机器学习方法提高 50%,能够实现长达32个时间点和256序列长度的动态结构预测,这一创新使得模型能够捕捉到生物分子在不同时间和条件下的行为,为生物医药研究提供了更为精确的数据支持。

此外,该模型还能根据物理条件,如温度、加速度和力等条件信息,对生物结构进行精确控制和预测。同时还能够生成多种蛋白质构象,这有助于识别潜在的药物结合位点,从而加速新药的发现和开发。其中,基于扩散模型构建的蛋白质多构象采样算法表现卓越,相较于现有的SOTA的alphaflow算法,在精确度基本持平的情况下,采样多样性提升了50%。

研发团队的目标是创建一个能够全面模拟生物结构多样性的模型,以辅助制药流程和药物筛选,未来应用前景广阔,尤其在生物医药合成领域,有望通过模拟方式减少实验需求,提高药物研发效率,为生命科学研究和药物开发带来新的曙光。

 签署三项重要合作协议,推动深化科学智能生态建设

上智院与复旦大学、德勤管理咨询(上海)有限公司、上海海洋大学以及国家蛋白质科学研究(上海)设施签署三项重要合作协议,以进一步推动深化“1+1+N”科学智能生态建设。这些合作将整合多方资源,共同推进科学智能领域在金融、工业制造、生物科技、远洋渔业等行业的创新应用,促进人工智能与各产业的深度融合。

复旦大学、德勤管理咨询(上海)有限公司与上智院签署的三方合作协议,将在科学智能领域建立多层次合作生态圈,为AI人才提供从教育到产业的全链条支持,以实现AI在金融、工业、健康管理及城市治理等领域的深度应用。三方将聚焦于人工智能、生命科学、智能制造等前沿领域的科研突破,定期发布科学智能行业白皮书,构建高水平的科学智能智库与产学研用全链条对接平台,为相关政策和产业发展提供前瞻性建议。

上智院与国家蛋白质科学研究(上海)设施的合作意向书,将生物数据与人工智能紧密结合,为科学智能生态系统注入强劲动力。作为本次合作的核心,上智院将通过战略规划与技术创新,带动生物数据处理和科学大模型的研发。国家蛋白质科学研究设施提供逾二十万条生物大分子结构数据及冷冻电镜数据,双方将以此为基础,集中攻克生物数据分析与智能算法应用的关键难题,推动生物数据深度处理与智能化的突破,为生命科学的技术创新和成果转化提供有力支持。

此外,上海海洋大学与上智院共同成立“渔业渔情校企智能远洋渔业联合实验室”,并以此建立一个长期且稳定的产学研合作机制。上海海洋大学将向上智院提供远洋渔业等领域的珍贵数据资源,而上智院则将利用其在人工智能领域的先进技术,尤其是伏羲系列气象大模型,对这些数据进行深入分析和处理。双方将在数据共享、算法优化及产品研发方面展开深入合作,为远洋渔业的可持续发展提供前沿科技支持。