早半年发arXiv,却被质疑抄袭:活在微软AutoGen阴影里的CAMEL

arXiv 不是同行评审期刊,所以发在 arXiv 上的论文不必被引用,这合理吗?  如果你对 AI 智能体感兴趣,那你一定知道微软的 AutoGen。它是一个用于构建 AI 智能体的开源编程框架,允许多个智能体通过聊天来解决任务。其间,LLM 智能体可以扮演多种角色,如程序员、设计师,或者各种角色的组合。在 GitHub 上,这个项目已经收获了 28k 的 star 量,论文还在 ICLR 2024  LLM Agent Workshop 上获得了最佳论文奖。不过,这篇论文的背后其实是存在争议的。2023 年 1

arXiv 不是同行评审期刊,所以发在 arXiv 上的论文不必被引用,这合理吗?  

如果你对 AI 智能体感兴趣,那你一定知道微软的 AutoGen。它是一个用于构建 AI 智能体的开源编程框架,允许多个智能体通过聊天来解决任务。其间,LLM 智能体可以扮演多种角色,如程序员、设计师,或者各种角色的组合。

在 GitHub 上,这个项目已经收获了 28k 的 star 量,论文还在 ICLR 2024  LLM Agent Workshop 上获得了最佳论文奖。

图片

不过,这篇论文的背后其实是存在争议的。

2023 年 11 月,一位 AI 研究者(阿卜杜拉国王科技大学博士,开源项目 Camel-AI.org、DeepGCNs.org 的发起人李国豪)发帖称,由于 AutoGen 与他们的论文 CAMEL 高度相似,他们每次出席活动的时候都会被问,二者有什么区别?

图片

图片

对此,李国豪表示非常无奈,因为他们的论文发布在 arXiv 上的时间要明显早于 AutoGen,如今却被当成了 AutoGen 的模仿者(CAMEL 发布于 2023 年 3 月;AutoGen 发布于 2023 年 8 月)。

图片

                              论文链接:https://arxiv.org/abs/2303.17760

图片

                               论文链接:https://arxiv.org/pdf/2308.08155

根据李国豪的说法,二者在方法论上存在以下相似之处:

图片

甚至用到的例子也有点相似:   

图片

图片

作为后来者,AutoGen 确实在论文中提到过 CAMEL,并指出了 CAMEL 与 AutoGen 之间的一些差异。但这些内容出现的位置令人费解 —— 它们统统出现在附录中。这可能也是导致其他研究者只知 AutoGen,不知 CAMEL 的一大原因。毕竟,有几个人会去仔细看附录呢?

图片

AutoGen 论文中提及 CAMEL 的段落:「CAMEL(Li et al., 2023b)是一个通信智能体框架,它展示了如何使用角色扮演来让聊天智能体相互交流以完成任务。CAMEL 还能记录智能体对话以进行行为分析和能力理解。CAMEL 使用了一种「inception-prompting」技术实现智能体之间的自主合作。与 AutoGen 不同的是,CAMEL 本身不支持工具使用(如代码执行)。尽管 CAMEL 被提议作为多智能体对话的基础设施,但它只支持静态对话模式,而 AutoGen 还支持动态对话模式。」

图片

表 1 为 AutoGen 与其他相关多智能体之间的差异总结,从四个指标着手判断:一是基础结构,即系统是否设计为构建 LLM 应用程序的通用基础结构;二是对话模式,即系统支持的模式类型。在「静态」模式下,无论输入如何,智能体拓扑结构都保持不变。AutoGen 允许灵活的对话模式,包括可以根据不同应用程序需求定制的静态和动态模式。三是可执行,即系统是否可以执行 LLM 生成的代码;四是人工参与,系统是否(以及如何)允许人工参与执行过程。AutoGen 允许人工灵活地参与多智能体对话,并允许人工选择跳过提供输入。

图片

AutoGen 论文中提及 CAMEL 的段落:「AutoGen 可以帮助开发能力超强的智能体,充分利用 LLM、工具和人类的优势。创建这样的智能体对于确保多智能体工作流能够有效地排除故障并在任务中取得进展至关重要。例如,我们观察到,另一个多智能体 LLM 系统 CAMEL 在大多数情况下无法有效解决问题,主要是因为它缺乏执行工具或代码的能力。这一失败表明,仅有简单角色扮演的 LLM 和多智能体对话是不够的,还必须有具备各种技能的高级能力智能体。我们认为,开展更系统的工作,制定针对特定应用的智能体指南,创建大型 OSS 知识库,并创建能够发现和提升自身技能的智能体是必要的。

在 AutoGen 提交给 ICLR 主会议审稿期间,CAMEL 一作李国豪在公共评论区指出了这一问题,并强调这是「值得注意的遗漏」。

图片

在针对 AutoGen 的审稿意见中,ICLR 的审稿人和领域主席也指出了这种做法的不妥之处。

图片

其中,领域主席写道,「作者确实在附录中讨论了这一工作,但这种做法是不可取的,因为补充材料的审核级别与论文的审核级别不同。简而言之,这似乎允许作者说他们引用和讨论了论文,但实际上并没有在 99% 的人可能阅读的论文部分进行引用和讨论。我认为这种做法令人担忧。」

图片

那 AutoGen 的作者为什么这么做呢?他们回复说:在他们将论文提交给 ICLR 2024 时,CAMEL 等论文尚未在同行评审会议 / 期刊上发表。根据 ICLR 2024 审稿人指南,他们没有义务引用这篇论文或与之比较(CAMEL 于 2023 年 9 月被 NeurIPS 2023 录用;ICLR 2024 审稿人指南规定,在 2023 年 5 月 28 日之后发表的论文不需要引用)。

图片

同时,他们列出了论文中涉及 CAMEL 的部分:

图片

鉴于 ICLR 规定在先,领域主席也不好多说什么。他写道,「虽然我理解这项政策背后的基本原理,但在当前的出版氛围下,它可能会导致奇怪的结果。由于 ICLR 的政策,我不会将其纳入我的决定中,但这会降低我的信心。」

关于李国豪提及的相似性,AutoGen 作者也给出了反驳意见:

图片

针对审稿人提出的问题,他们回复如下:   

图片

最终,和 CAMEL 之间的相似性以及引用问题并未作为论文的主要问题被领域主席考虑在内。不过,AutoGen 论文最终还是因为其他原因被拒(所以后来作者转投了 ICLR 2024  LLM Agent Workshop)。

根据李国豪的说法,两篇论文的作者其实在线下见过面,但发生了一些不愉快:

图片

李国豪希望能够通过发帖引起学术界的重视。

图片

对此,你怎么看呢?

相关资讯

如何使用AutoGen AI技术实现多代理对话

译者 | 李睿审校 | 重楼本文将介绍一个实验,展示多个人工智能代理如何通过群聊方式进行互动,并根据具体的业务需求协同工作,共同生成解决方案的架构。 本文介绍如何使用Databricks Community Edition (CE)(一个免费的基于云的平台)运行一些基本的人工智能Python代码。 因为只处理开源库,所以这个实验可以很容易地在任何Python/PySpark环境中复现。

物理学家在arXiv上怒斥自然封面常温超导论文,被禁言6个月

在预印本平台上讨论学术问题也要文明、友好,这是 arXiv 刚刚给提交者上的一堂新课。

探索大语言模型垂直化训练技术和应用-陈运文

内容来源:ChatGPT 及大模型专题研讨会 分享嘉宾:达观数据董事长兼CEO 陈运文博士分享主题:《探索大语言模型垂直化训练技术和应用》 转载自CSDN稿件本文整理自 3月11日 《ChatGPT 及大规模专题研讨会》上,达观数据董事长兼CEO 陈运文博士关于《探索大语言模型垂直化训练技术和应用》的分享,将介绍达观数据在大语言模型应用中的探索与思考。此次分享的主要内容分为 6 块,分别是:参数规模和数据规模的探索垂直领域适应预训练微调技术探索提示工程和垂直优化模型训练加速思路模型功能的垂直效能增强在探索大语言模型