AI for Science 开源新项目「Polymathic AI」,Yann LeCun担任顾问

编辑 | 紫罗过去几年,通过在大量不同的数据集上训练通用模型,视觉和自然语言处理 (NLP) 机器学习领域取得了重大进展。这导致了「基础模型」的出现。例如,「大型语言模型」引发了 NLP 的复兴:微调或提示通才模型现在已成为标准做法,而不是从头开始训练专业模型。然而,机器学习在科学数据集上的应用尚未发生类似的范式转变。这就是「Polymathic AI」(博学人工智能)研究计划寻求解决的一个未实现的机会。图灵奖得主、Meta 首席科学家 Yann LeCun 表示:「很高兴成为 AI for Science 新计划

AI for Science 开源新项目「Polymathic AI」,Yann LeCun担任顾问

编辑 | 紫罗

过去几年,通过在大量不同的数据集上训练通用模型,视觉和自然语言处理 (NLP) 机器学习领域取得了重大进展。这导致了「基础模型」的出现。

例如,「大型语言模型」引发了 NLP 的复兴:微调或提示通才模型现在已成为标准做法,而不是从头开始训练专业模型。

然而,机器学习在科学数据集上的应用尚未发生类似的范式转变。

这就是「Polymathic AI」(博学人工智能)研究计划寻求解决的一个未实现的机会。

图灵奖得主、Meta 首席科学家 Yann LeCun 表示:「很高兴成为 AI for Science 新计划(Polymathic AI)的顾问」。

AI for Science 开源新项目「Polymathic AI」,Yann LeCun担任顾问

剑桥大学 AI+天文/物理助理教授 Miles Cranmer 在 twitter 也分享了其参与的一项新计划:Polymathic AI!

「我们正在开发科学[数据]的基础模型,以便它们可以利用跨学科的共享概念。」

AI for Science 开源新项目「Polymathic AI」,Yann LeCun担任顾问

网友纷纷表示:「这太酷了!这看起来很有趣!惊人的研究......」

AI for Science 开源新项目「Polymathic AI」,Yann LeCun担任顾问

Polymathic AI 计划的目标是加速开发针对数值数据集和科学机器学习任务定制的多功能基础模型。

面临的挑战是建立人工智能模型,利用来自异构数据集和不同科学领域的信息,与自然语言处理等领域相反,这些模型不共享统一的表示(即文本)。

然后,这些模型可以用作强大的基线,或者由科学家针对特定应用进行进一步微调。这种方法有可能通过提供现成的模型来实现科学中人工智能的民主化,这些模型对于共享的一般概念(如因果关系、测量、信号处理,甚至更专业的共享概念(如波))具有更强的先验(即背景知识)。否则这些概念需要从头开始学习。

为了实现这一目标,该研究计划汇集了一支由纯机器学习研究人员和领域科学家组成的团队,涵盖各个学科。此外,还接受由世界领先专家组成的科学咨询小组的指导。

AI for Science 开源新项目「Polymathic AI」,Yann LeCun担任顾问

研究团队。

AI for Science 开源新项目「Polymathic AI」,Yann LeCun担任顾问

科学咨询小组。

AI for Science 开源新项目「Polymathic AI」,Yann LeCun担任顾问

参与机构。

建立真正的科学基础模型需要大量的初步研究。研究计划正集中精力研究这个领域的基础知识,迄今为止已经发表了关于关键架构组件的研究,从适应数值数据的语言模型到展示在不同物理系统上训练的代理模型的可转移性,再到学习多模态科学数据的共享嵌入。

该研究计划对这个研究方向重新定义科学机器学习前景的潜力感到兴奋,而 Polymathic AI 代表了实现这一目标的雄心勃勃的一步。

项目开源地址:https://github.com/PolymathicAI/

参考内容:https://polymathic-ai.org/blog/announcement/

https://polymathic-ai.org/

https://twitter.com/MilesCranmer/status/1711429121220465037

相关资讯

230页长文,涵盖5大科学领域,微软团队使用GPT-4探索LLM对科学发现的影响

编辑 | 紫罗前不久,微软 DeepSpeed 团队启动了一个名为 DeepSpeed4Science 的新计划,旨在通过 AI 系统优化技术实现科学发现。11 月 13 日,微软团队在 arXiv 预印平台发表题为《大型语言模型对科学发现的影响:使用 GPT-4 的初步研究》(「The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4」)的文章。文章篇幅长达 230 页。论文链接:,自然

​微软研究院刘铁岩:AI for Science,憧憬一个人人都可参与科学发现的未来

作者 | 刘铁岩正处于起步阶段的AI for Science被认为是科学发现的第五范式。尽管目前对于AI for Science的定义和研究方向仍有诸多讨论,但这并不妨碍AI for Science已经开始在科学发现的实践中取得令人瞩目的成果。近年来,微软研究院科学智能中心杰出首席科学家刘铁岩博士和他的团队致力于推动AI for Science的发展和应用。在这篇署名文章中,刘铁岩博士将分享他对人工智能在科学领域关键研究方向的看法 ,以及对AI for Science未来前景的展望。「AI for Science预

浙大、腾讯团队发布科学LLM大规模评测基准,国产大模型表现亮眼

编辑 | ScienceAI随着大型语言模型(LLMs)在科学研究领域的广泛应用,评估这些模型在理解和应用科学知识方面的能力变得尤为重要,但是科学领域全面评估 LLMs 科学知识的高级基准非常缺乏。近日,来自浙江大学 NLP 实验室与腾讯 AI Lab 的研究者构建了 SciKnowEval 评测基准,定义了 L1 到 L5 不同层级的科学智能,共包含化学和生物领域 50,000 个不同层次的科学评测题目,并利用该数据集用于对 20 个开源和闭源 LLMs 进行基准测试。其中,拥有千亿至万亿参数的通用大语言模型如