11月11日,在复旦大学和上海科学智能研究院主办的“2024科学智能创新论坛”上,气候科学大语言模型、“女娲-基因导航大模型”、“女娲-生命流体大模型”和“女娲-生物结构大模型”正式发布。
这些大模型有何“绝活”和亮点?为何以“女娲”命名三个生命科学大模型?解放日报·记者专访了相关研发人员。
气候科学大语言模型是中国首个独立自主研发的气候科学大语言模型,由复旦大学、上海科学智能研究院、上海创智学院共同研发。
“请解读一下联合国政府间气候变化专门委员会第六次评估报告对于甲烷排放的观点”“我要做一个气候投融资项目,请评估一下它的技术和风险”……
这些看上去并不容易回答的问题,都可以问询“气候科学大语言模型”。该模型引入超2600亿词汇量的气候变化领域知识,是目前已知的气候科学大语言模型中最多的。
此外,该模型整合了农学、林学、能源科学、水利工程、环境科学、管理学、经济学、政治学、法学等十余个一级学科的气候变化跨学科数据体系,是迄今覆盖面最广的气候科学大语言模型,堪称“气候百科全书”,可为气候领域的研究人员和从业者提供全方位的AI科学家服务,加速气候变化研究进展。
在模型研发过程中,研发团队邀请了全国逾百位气候领域的专家和科研工作者参与指令问答标注工作,并从中筛选出19110个高质量指令实例,对大模型进行有监督微调,显著增强了指令与任务求解能力。
一般而言,通用大模型评测集无法满足特定领域的需求。为此,气候科学大语言模型构建了一个包括7743个多类型、多学科问题的气候评测基准,填补了目前气候领域大模型评测数据集的一个空白。
“我们把这一大模型发给气候变化谈判专家试用,他们给出的反馈是:很专业。”复旦大学校长助理、上海科学智能研究院理事长吴力波告诉解放日报·记者。
谈及为何以“女娲”命名三个生命科学大模型,复旦大学人工智能创新与产业研究院副院长、研究员程远告诉解放日报·记者,期待这些大模型能像“女娲造人”般,掌握人体生命科学的基本规律。
人类基因组中可以表达为蛋白质的区域仅占1.5%,剩余98.5%非编码区被称为基因组中的“暗物质”。这些“暗物质”虽然不直接生成蛋白质,但对调节基因的表达至关重要。比如,基因组中的“暗物质”序列的突变可能会导致癌症的发生。
“女娲-基因导航大模型”所建模的正是基因组中的“暗物质”。据介绍,之所以取名“基因导航大模型”,是希望针对“暗物质”对生命的作用机制提供一个“导航图”,最终构建出一套基因与基因之间、基因与环境之间、基因与外部刺激之间的关联图谱。
“我们已完成一个减肥靶点的计算数据验证,还发现了阿尔兹海默症的一个新靶点,有待临床实验进一步验证其有效性。”程远告诉解放日报·记者。
通过图神经网络预训练与调控关系知识图谱,“女娲-基因导航大模型”可以对7Mb以上的远距离调控进行预测,平均预测精度达到0.85以上,比已知的国际最优精度高出1倍以上。
研发团队已和华山医院达成成果转化与科研合作意向,该大模型将被用于脑动脉瘤破裂风险预估与血管壁增厚分析。
水是生命之源。人体内的流体占到自身重量的50%-60%,例如心脑血管中的血液、妊娠过程中子宫内的羊水、实体肿瘤附近毛细血管中的血液等对人体生理功能和病理状态有着重大影响。
许多疾病的发展与流体动力学的变化密切相关,如心血管疾病中的血栓形成、动脉硬化导致的血流障碍;呼吸系统疾病中的气道阻塞;肿瘤生长过程中周围微环境的改变影响营养物质和氧气的输送等。对这些问题进行深入研究,有助于揭示疾病的发病机制,指导临床治疗方案的选择。
“女娲-生命流体大模型”,正是基于自建的全球最大规模器官流体力学数据库与物理方程约束方法,构建了一套可适应人体内各种器官的流体力学基础模型。
据介绍,该大模型的计算效率相比传统计算流体动力学方法提升了100倍,针对脑动脉中血液的速度场的模拟误差低至6.8%,相比当前学术界的最低误差有了显著提升。
“尤其在生命体的复杂管网流速的预测上,现在的误差是每秒6厘米,大家对这个数字可能没什么概念,它其实跟乌龟爬的速度——每秒5厘米差不多。”程远说。
目前的生物结构大模型通常只能生成静态结构,例如分子、蛋白质、DNA和RNA的静态结构。然而,在微观世界中,结构往往是动态的。
此次发布的“女娲-生物结构大模型”实现了两项差异化创新,可实现短时间的动态结构生成,即连续生成纳秒或皮秒级的结构;并能够对持续空间状态进行采样,即一次性采集较为稳定的状态。这些特点对制药尤其是临床前期流程至关重要。据悉,该大模型的研发团队正与医药研发外包服务机构合作,开展药物结构合成的临床前验证。
值得关注的是,“女娲-生物结构大模型”已在多项指标上超越“阿尔法折叠3”,成为当前国际领先的蛋白质结构生成工具。
复旦大学人工智能创新与产业研究院研究员、上海科学智能研究院AI科学家朱思语告诉解放日报·记者,目前在蛋白质-配体复合物和DNA复合物结构上,该大模型的表现优于“阿尔法折叠3”,而在RNA结构、蛋白质-蛋白质复合物结构预测上略有不足,这主要是因为相关训练数据较为稀缺。未来,在生物数据方面,研发团队将与国家蛋白质中心(上海设施)合作,通过分子动力学模拟来积累动态蛋白数据,为模型生成提供支持。
“阿尔法折叠3”已进入工业应用,“女娲-生物结构大模型”是否也能进入工业应用呢?“在特定场景下完全可以进入工业应用。目前的难点和挑战在于,人们已知的结构模型太有限了。”朱思语说,好比爬山,大部分登山者还在山脚下(仅能预测蛋白质的折叠状态),而处于山间的还很稀少(可预测蛋白的运动过程)。当下的人工智能制药,偏重于提高筛选效率,未来更值得期待的是,预测产生新的蛋白质结构。