AI发论文被顶会接收？拿到6/7/6同行评审的AI Scientist-v2有多强，技术细节来了

2025-04-09 02:12

编辑 | ScienceAI还记得 2024 年 8 月 Sakana AI 发布的 AI Scientist 吗？全球首个用于自动化科学研究和开放式发现的 AI 系统。如今它已经进化到了 AI Scientist-v2 版本，并且它生成的论文几乎达到被 AI 顶会接收的水平了！

AI发论文被顶会接收？拿到6/7/6同行评审的AI Scientist-v2有多强，技术细节来了

编辑 | ScienceAI

还记得 2024 年 8 月 Sakana AI 发布的 AI Scientist 吗？全球首个用于自动化科学研究和开放式发现的 AI 系统。

如今它已经进化到了 AI Scientist-v2 版本，并且它生成的论文几乎达到被 AI 顶会接收的水平了！

AI Scientist-v2 生成的这篇论文题为《Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization》，在 ICLR 2025 上拿到了 6/7/6 的同行评审分数。

什么水平呢，就是超过了平均接受阈值，优于许多人类撰写的论文。这也是首篇完全由 AI 生成且通过顶级机器学习会议研讨会同行评审的学术论文。

图示：这篇论文由 AI Scientist-v2 完成。论文投稿至 ICLR 2025 workshop，经 workshop 同意与 Sakana AI 团队合作，对 AI 生成的论文进行双盲评审实验。(来源：Sakana AI)

今天，推出 AI Scientist 的开发团队——人工智能初创公司 Sakana AI 发布了AI Scientist-v2 的技术报告《The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search》，并开源了其代码。

技术报告：https://pub.sakana.ai/ai-scientist-v2/paper/paper.pdf

开源代码：https://github.com/SakanaAI/AI-Scientist-v2

AI Scientist-v2 的技术创新

AI Scientist-v2 相比于 AI Scientist-v1 有许多创新。最显著的改进是朝着更大的自主性和泛化方向发展，启动更通用的想法生成阶段，并消除对固定的、人工编写的实验模板代码的依赖。这个过程从广义的想法生成开始，产生一个初始概念，然后将其输入到实验阶段。

图示：AI Scientist-v2工作流。本工作流程包含多个阶段，涵盖：自动化创意生成、实验执行、图表可视化、论文撰写、评审环节。（来源：技术报告）

为了实现这一点，Sakana AI 团队在实验阶段引入了两个关键特性：粗粒度实验管理和基于智能体树搜索的探索。并且，他们将视觉语言模型 (VLM) 集成到实验和评审阶段。同时，研究人员简化了稿件撰写阶段，将 AI Scientist-v1 中基于 Aider 的增量式迭代写作方法替换为更简单的单次生成，并随后进行由 GPTo1 等推理模型驱动的独立反思阶段。具体而言：

1、生成更普通更基础的想法

AI Scientist-v2 的一个关键概念转变在于研究创意生成方法的革新。与前代系统主要侧重于基于现有代码库提出增量式修改或扩展不同，AI Scientist-v2 采用了从更高抽象层次开始的流程。该系统鼓励对潜在的研究方向、假设和实验设计进行更开放的思考，类似于在确定具体实施方案之前制定研究摘要或资助提案。

这种方法鼓励探索潜在的更新颖或更基础的想法，而不是受限于现有代码的结构和主题。它更符合研究人员通常构建更广阔研究愿景的方式：从抽象概念入手，评估其新颖性和可行性，然后再深入研究具体实现。

至关重要的是，这个广义的创意生成阶段将文献综述工具（例如 Semantic Scholar）整合到循环中。该系统可以在创意形成过程中查询文献数据库，以评估所提概念的新颖性并识别相关的先前研究。这使得研究人员能够更明智地决定是否要选择特定的研究途径，确保创意从一开始就立足于现有的科学领域，而不是仅仅依赖于事后检验。

2、消除模板依赖

在改进的创意生成阶段之后，AI Scientist-v2 继续进行实验。除了代码调节的创意生成之外，AI Scientist-v1 还依赖预定义的模板代码作为起始基线实现。LLM 驱动的代码更改随后仅限于顺序代码调整。该策略提高了系统的灵活性和自主性。

（1）实验进度管理：现实世界中的科学实验通常会经历不同的阶段，从最初的可行性评估到详细的消融分析。为了模拟这种结构化方法，该团队引入了一个实验进度管理智能体，用于协调科学实验的四个明确定义的阶段：初步调查、超参数调优、研究议程执行、消融研究。

（2）并行智能体树搜索：AI Scientist-v1 严格线性运行，每次代码改进都直接建立在前一次实验的基础上。相比之下，AI Scientist-v2 采用了更加灵活和探索性的方法，研究人员将这种智能体树搜索方法融入前文提到的四个实验阶段中，从而能够更深入、更系统地探索科学假设。

图示：AI Scientist-v2基于树的实验多阶段工作流。（来源：技术报告）

3、使用了 Hugging Face 中的数据集

在 AI Scientist-v2 中，该团队尽可能地让系统利用 Hugging Face Hub，并使用标准的单行函数 (datasets.load_dataset) 自动下载所需的数据集。虽然这种标准化方法极大地简化了数据集处理。不过，研究人员也承认它在某种程度上是临时性的，因为并非所有数据集存储库都支持这种方法。

4、视觉语言模型「评审员」

与未利用视觉语言模型 (VLM) 的 AI Scientist-v1 不同，AI Scientist-v2 在工作流程的两个阶段整合了 VLM：

首先，在基于树的实验阶段，VLM 会对生成的图表提供即时反馈，确保这些可视化效果能够有效、准确地传达实验结果。其次，在稿件撰写反思阶段，VLM 会评估图表及其说明，从而提升最终论文的视觉清晰度和连贯性。

在论文撰写过程中，他们会提取图表的屏幕截图及其标题，以及引用这些图表的论文中的相应文本。这些图像和文本参考随后会被提供给 VLM，VLM 会执行多项质量检查，包括验证图表和标题之间的对齐方式、识别视觉清晰度问题（例如，图例缺失、标签不清晰），以及检测正文和附录中图表的潜在重复。

该团队通过 VLM 反馈的迭代集成，显著提升了 AI Scientist-v2 生成的稿件的视觉质量和清晰度。

对 AI Scientist-v2 生成论文的评估

图示：由 AI Scientist-v2 生成的同行评审 ICBINB 研讨会论文。（来源：技术报告）

Sakana AI 团队与 ICLR 研讨会组织者合作，提交了 3 篇完全由 AI Scientist-v2 生成的论文进行双盲同行评审。评审人未被告知论文来源。

AI Scientist-v2 实现了端到端的自主科研流程，包括：研究假设提出、实验设计、代码编写、实验执行、数据分析、图表生成以及完整论文撰写（标题至参考文献）。研究团队仅提供宽泛的研究方向，并从 AI 生成的多篇论文中筛选了 3 篇提交。

评审结果显示，在提交的三篇论文中，有两篇未达到接收标准。其中一篇论文的平均得分为 6.33（6/7/6，其中 6 分为略高于接受阈值，7 分为优秀），在所有提交论文中排名约 45%。这些分数超过平均接受阈值，表现优于部分人类撰写的论文。

图示：评审结果。(来源：Sakana AI)

相关内容：https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment

AI Scientist 的未来

AI Scientist 的研究团队 Sakana AI，是最后一位从谷歌离职的 Transformer 论文作者 Llion Jones 与前谷歌研究人员 David Ha 共同创立的人工智能公司。Sakana AI 旨在创建一种基于自然启发智能的新型基础模型。

图示：Sakana AI的两位创始人——左为Llion Jones，右为David Ha。(来源：Sakana AI)

去年 8 月，Sakana AI 推出了第一代 AI Scientist，到 12 月份，他们又拿出了另一项重磅研究成果：使用基础模型搜索人工生命的系统 ASAL，旨在自动发现新的人工生命形式。

现在，AI Scientist-v2 又用生成通过同行评审的学术论文交上了一份新的答卷。

这些进步预示着下一代 AI Scientist 将开启科学的新纪元。这仅仅是个开始，科学家预计人工智能的能力将持续提升，甚至可能以指数级的速度增长。

在未来的某个时刻，人工智能很可能能够产出与人类水平相当甚至超越人类水平的论文，甚至在最高水平的科学出版领域也是如此。

SakanaAI 团队在论文里表示：「最重要的不仅仅是人工智能科学与人类科学的比较，而是它的发现是否有助于人类的繁荣发展，例如治愈疾病或扩展我们对宇宙规律的认识。」

耶鲁、剑桥等开发MindLLM，将脑成像直接转换为文本

编辑 | 萝卜皮将功能性磁共振成像 (fMRI) 信号解码为文本一直是神经科学界面临的一项重大挑战，它有望推动脑机接口的发展，并加深对大脑机制的了解。然而，现有的方法往往存在预测性能不佳、任务种类有限以及跨受试者泛化能力较差等问题。针对这一问题，耶鲁大学（Yale University）、达特茅斯学院（Dartmouth College）和剑桥大学（University of Cambridge）的研究人员提出了 MindLLM，一种专为主题无关且用途广泛的 fMRI 到文本解码而设计的模型。

3/4/2025 1:01:00 PM

ScienceAI

ByteQC：通往大规模实用化量子化学计算的曙光

编辑 | ScienceAI真实化学体系包含大量的微观粒子，其精确的严格计算需要指数高的复杂度，对这些体系的模拟一直是材料、制药和催化等领域的难点和前沿。为了解决这一问题，近日字节跳动 ByteDance Research 团队开发并开源了 ByteQC ——基于 GPU 加速的大规模量子化学计算工具集。该工具集使用强大的 GPU 算力，大幅度加速了常见的量子化学算法，同时结合领域内前沿的量子嵌入方法实现了量子化学「黄金标准」精度下的大规模量子化学体系的模拟。

3/5/2025 12:56:00 PM

ScienceAI

「机器学习之父」Mitchell 撰文：AI 如何加速科学发展，美国如何抓住机遇

编辑 | ScienceAI近日，卡内基梅隆大学（Carnegie Mellon University）教授，有着「机器学习之父」之称的 Tom M. Mitchell 撰写了新的 AI for Science 白皮书，重点讨论了「人工智能如何加速科学发展？美国政府如何帮助实现这一目标？」这一主题。ScienceAI 对白皮书原文进行了不改变原意的全文编译，内容如下。人工智能领域最近取得了显著进展，包括 GPT、Claude 和 Gemini 等大型语言模型，因此提出了这样一种可能性：人工智能的一个非常积极的影响，

7/29/2024 3:21:00 PM

ScienceAI

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战模态编码器|CLIP详细解读 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 50组多风格提示词，全面测评Midjourney V7生图效果！斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 神器推荐 LLaMA 大语言模型具身智能字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构

顶部

AI发论文被顶会接收？拿到6/7/6同行评审的AI Scientist-v2有多强，技术细节来了

相关资讯

耶鲁、剑桥等开发MindLLM，将脑成像直接转换为文本

ByteQC：通往大规模实用化量子化学计算的曙光

「机器学习之父」Mitchell 撰文：AI 如何加速科学发展，美国如何抓住机遇