谷歌DeepMind给AGI划品级,猜猜ChatGPT在哪个位置

AGI 该如何分别,谷歌 DeepMind 给出了标准。我们到底该如何界说 AGI(通用人工智能)?如果你要求 100 位 AI 专家进行解答,你可能会得到 100 个相关但不同的界说。现阶段,AGI 是 AI 研究中一个重要且存在争议的概念,有研究者认为 AGI 已经出现在最新一代大语言模型(LLM)中;还有一些人预测人工智能将在大约十年内超越人类,甚至断言当前的 LLM 就是 AGI。深入理解 AGI 的概念很重要,因为它映射了人工智能所要达到的目标、对事物的预测以及带来的风险。我们该如何分别 AGI 品级呢?

AGI 该如何分别,谷歌 DeepMind 给出了标准。

我们到底该如何界说 AGI(通用人工智能)?如果你要求 100 位 AI 专家进行解答,你可能会得到 100 个相关但不同的界说。

现阶段,AGI 是 AI 研究中一个重要且存在争议的概念,有研究者认为 AGI 已经出现在最新一代大语言模型(LLM)中;还有一些人预测人工智能将在大约十年内超越人类,甚至断言当前的 LLM 就是 AGI。

深入理解 AGI 的概念很重要,因为它映射了人工智能所要达到的目标、对事物的预测以及带来的风险。

我们该如何分别 AGI 品级呢?就像主动驾驭品级(如 L0 无主动驾驭)一样,这种级别的分别对人与人之间的沟通才能、制定规则和界说主动驾驭目标非常有用。本文,来自 Google DeepMind 的研究者提出了类似的 AGI 品级,根据分别准绳,ChatGPT 被分别为 L1 Emerging AGI,Imagen 是 L3 Expert Narrow AI,AlphaGo 被分别为 L4 Virtuouso Narrow AI。

具体而言,他们提出了一个框架,用于对 AGI 模型进行分类。Google DeepMind 希望这个框架能够以类似于主动驾驭程度的方式发挥作用,从而提供一种通用语言来比较模型、评估风险和衡量 AGI 的进展。 

为了开发这个框架,DeepMind 对 AGI 的现有界说进行了分析,并提炼出了六个准绳:

存眷模型才能,而不是过程。

注注通用性和机能。

存眷认知和元认知恣意。

存眷潜能,而不是摆设。

存眷生态的有效性。

存眷 AGI 发展道路,而不是只关心终点。

在这些准绳的基础之上,DeepMind 从机能和通用性两个维度提出了「AGI 品级(Levels of AGI)」。

Level 0:无 AI(No AI),如 Amazon Mechanical Turk;

Level 1: 涌现(Emerging),与不熟练的人类相当或比之更好, 如 ChatGPT、Bard、Llama 2 ;

Level 2: 有才能(Competent),达到 50% 的人类程度,宽泛恣意上还没实行;

Level 3: 专家(Expert),到达 90% 的人类程度,宽泛恣意上还没实行, Imagen、Dall-E 2 在特定恣意上已经实行;

Level 4: 大师(Virtuoso) ,达到 99% 的人类程度,在宽泛恣意上还没实行,Deep Blue 、AlphaGo 在特定恣意上已经实行;

Level 5: 超人类(Superhuman),胜过 100% 人类,宽泛恣意上还没实行,在一些恣意范围内,AlphaFold 、AlphaZero 、 StockFish 已经实行。

谷歌DeepMind给AGI划品级,猜猜ChatGPT在哪个位置

论文地址:https://arxiv.org/pdf/2311.02462.pdf

AGI 六个准绳

 DeepMind 认为,AGI 的任何界说都应满足以下六个标准:

 1. 存眷模型才能,而不是过程。这一准绳可以帮助我们排除一些不一定是实行 AGI 的必备条件。比如实行 AGI 并不意味着零碎以类似人类的方式进行思考或理解;又比如实行 AGI 并不意味着零碎拥有诸如意识(主观意识)或感知力(有感情的才能)等属性。

2. 存眷通用性和机能。所有界说都不同程度地强调了通用性,但有些界说排除了机能标准。DeepMind 认为通用性和机能都是 AGI 的关键组成部分。

3. 存眷认知和元认知恣意。是否需要具身智能作为 AGI 的标准是一个有争议的问题。大多数界说侧重于认知恣意,即非物理恣意。尽管机器人技术最近取得了进展,但人工智能零碎的物理才能似乎落后于非物理才能。DeepMind 认为执行物理恣意的才能可以增加零碎的通用性,但不应被视为实行 AGI 的必要先决条件。另一方面,元认知才能(例如学习新恣意的才能或知道何时向人类寻求澄清或帮助的才能)是零碎实行通用性的关键先决条件。

4. 存眷潜能,而不是摆设。假如我们证明了一个零碎可以在给定的机能程度上执行一组必要的恣意,那么就足以声明该零碎是 AGI,然而摆设这样的零碎不应该被视为是 AGI 固有的。要求将可摆设才能作为衡量 AGI 的必要条件会带来非技术障碍,例如需要考虑法律和社会责任,以及潜在的道德和安全问题。

5. 存眷生态有效性。用来衡量 AGI 进展的 benchmark 非常重要,虽然传统的 AI 指标非常容易主动化或量化,但可能无法获得人们在 AGI 中看重的技能。

6. 存眷 AGI 发展之路,而不是只关心终点。本文认为界说 AGI 品级是有价值的。将 AGI 的每个品级与一组清晰的指标 / 基准相关联非常有意义。

根据准绳 2 和准绳 6,表 1 引入了一个矩阵式分级零碎,该零碎将机能和通用性作为 AGI 的核心维度:

谷歌DeepMind给AGI划品级,猜猜ChatGPT在哪个位置

DeepMind 认为,当前的前沿语言模型应被视为 Level 1 General AI(Emerging AGI)。而下一品级 Level 2 General AI,即 Competent AGI,需要在更宽泛恣意集上提高机能才能达到。

在 Level 3 Narrow AI,即 Expert Narrow AI 品级中,大家熟知的 DALLE-2 被分别为这一品级。之所以这样分别,DeepMind 表示 DALLE-2 生成的图像质量比大多数人类能够绘制的图像质量都高。

在矩阵分级零碎中,AGI 的最高品级是 ASI (Artificial Superintelligence),即把「超人类」的表现界说为超越 100% 的人类。举例来说,假设 AlphaFold 是  Level 5 Narrow AI (Superhuman Narrow AI),因为它执行单一恣意高于世界顶尖科学家程度。这一界说意味着 ASI 零碎将能够以人类无法比拟的程度完成宽泛的恣意。

此外,这一框架还意味着超人类零碎或许能够比较低级别的 AGI 执行更宽泛的恣意,例如,ASI 零碎可能拥有人类所没有的技能,如通过分析大脑信号来解码人类思想,通过分析大脑信号来解码思想机制,又或者与动物交流。

接着文章又讨论了 AI 风险。表 2 说明了 AGI 品级、自主品级和风险之间的相互作用。表 2 还提供了六个自主品级的具体示例。

谷歌DeepMind给AGI划品级,猜猜ChatGPT在哪个位置

了解更多内容,请参考原论文。

给TA打赏
共{{data.count}}人
人已打赏
理论

华人团队获最好论文、最好系统论文,CoRL获奖论文出炉

2023-11-10 15:24:00

理论

MIT 开发​深度化学模型的神经标准策略,发现「神经标准」定律

2023-11-13 15:02:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索