AI在线 AI在线

Meta 发布新 AI 模型:利用 AI 来评估 AI 的能力,无需人类参与

作者:清源
2024-10-19 11:11
据路透社报道,Meta 当地时间周五宣布,其研究团队推出了一系列新的 AI 模型,其中包括一个名为“自我训练评估器”的工具。该工具有望推动 AI 开发过程中减少对人类干预的依赖。这个工具早前在 8 月的论文中首次亮相,其使用与 OpenAI 新发布的 o1 模型类似的“思维链”技术,让 AI 对模型的输出做出可靠判断。

据路透社报道,Meta 当地时间周五宣布,其研究团队推出了一系列新的 AI 模型,其中包括一个名为“自我训练评估器”的工具。该工具有望推动 AI 开发过程中减少对人类干预的依赖。这个工具早前在 8 月的论文中首次亮相,其使用与 OpenAI 新发布的 o1 模型类似的“思维链”技术,让 AI 对模型的输出做出可靠判断。

这种技术将复杂问题分解为多个逻辑步骤,从而提高了在科学、编程和数学等高难度领域中的答案准确性。Meta 的研究人员使用完全由 AI 生成的数据来训练这个评估器,从而在这一过程中完全摒弃了人类的参与。

使用 AI 来评估 AI 的能力展示了实现自主 AI 智能体的可能性,这类代理能够从自身错误中学习。两位负责该项目的 Meta 研究人员表示,许多 AI 专家设想未来可以开发出“智能化程度极高”的数字助手,可以自主处理大量任务,而无需人类介入。

自我改进的模型有望减少目前使用的“基于人类反馈的强化学习”(RLHF)过程的需求。这一过程往往昂贵且低效,因为它依赖于拥有专业知识的人类来标注数据和验证复杂问题的答案是否正确。

“我们希望,随着 AI 的发展,它能超越人类,逐渐具备自行检查工作的能力,并在准确性上超过普通人类水平,”项目研究员之一 Jason Weston 说。“自我训练和评估的能力是实现超人级 AI 的关键因素之一。”他补充道。

AI在线从报道中获悉,包括谷歌和 Anthropic 在内的其他科技公司也在研究 RLAIF(基于 AI 反馈的强化学习)这一概念,但与 Meta 不同,这些公司通常不会公开发布其研究模型。

Meta 此次发布的其他 AI 工具还包括对其图像识别模型“Segment Anything”的更新,一个加速大语言模型响应时间的工具,以及一些有助于发现新型无机材料的数据集。

相关标签:

相关资讯

Meta在英国启动面部识别反欺诈测试,监管批准后扩大应用

去年十月,Meta 开始在国际上测试两款面部识别工具,旨在应对基于名人肖像的诈骗及帮助用户找回被盗的 Facebook 或 Instagram 账户。 经过与英国监管机构的沟通,Meta 近日宣布将这项测试扩展至英国。 此次面部识别工具的推出是在英国监管部门的批准下进行的。
3/5/2025 5:05:00 PM
AI在线

准确率可达 70%,科学家利用 AI 解读狗的叫声

研究人员正在尝试使用 AI 来解读狗的叫声是在玩耍还是在生气。与此同时,研究人员还尝试使用 AI 识别狗的年龄、性别和品种。密歇根大学的研究人员与位于普埃布拉的墨西哥国家天体物理、光学和电子研究所(INAOE)合作开展了这一研究,发现最初用于训练人类语音的 AI 模型可以作为训练动物交流模型的起点。图源 Pixabay密歇根大学人工智能实验室负责人 Rada Mihalcea 表示,人工智能在理解语音的微妙之处方面有了显著进步,可以区分音调、音调和口音的细微差别,可凭借这些研究基础来理解狗吠。开发这种分析动物发声
6/7/2024 7:40:32 PM
满河(实习)

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

在目前的模型训练范式中,偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中,偏好数据通常被用作对齐(alignment)时的训练优化目标,如基于人类或 AI 反馈的强化学习(RLHF/RLAIF)或者直接偏好优化(DPO),而在模型评估中,由于任务的复杂性且通常没有标准答案,则通常直接以人类标注者或高性能大模型(LLM-as-a-Judge)的偏好标注作为评判标准。尽管上述对偏好数据的应用已经取得了广泛的成效,但对偏好本身则缺乏充足的研究,这很大程度上阻碍了对更可信 AI 系统的构建。为此,上海交通大学生成式
3/4/2024 11:13:00 AM
机器之心