Ilya参与,OpenAI给GPT-4搞可注释,提取了1600万个特色,还能看它怎么想

大模型也可注释了?大模型都在想什么?OpenAI 找到了一种办法,能给 GPT-4 做「扫描」,告诉你 AI 的思路,而且还把这种要领开源了。大说话模型(LLM)是当前 AI 领域最热门的探索方向,吸引了洪量的关注和研讨投入。它们强大的说话理解能力和生成能力在各种应用场景中都表现出巨大潜力。虽然我们见证了大模型迭代后性能上的显著提升,但我们目前对模型中的神经活动仍然只是一知半解。本周四,OpenAI 分享了一种查找洪量「特色」的全新要领 —— 或许这会成为可注释的一种可用方向。OpenAI 表示,新要领比此前的一些

大模型也可注释了?

大模型都在想什么?OpenAI 找到了一种办法,能给 GPT-4 做「扫描」,告诉你 AI 的思路,而且还把这种要领开源了。

Ilya参与,OpenAI给GPT-4搞可注释,提取了1600万个特色,还能看它怎么想

大说话模型(LLM)是当前 AI 领域最热门的探索方向,吸引了洪量的关注和研讨投入。它们强大的说话理解能力和生成能力在各种应用场景中都表现出巨大潜力。虽然我们见证了大模型迭代后性能上的显著提升,但我们目前对模型中的神经活动仍然只是一知半解。

本周四,OpenAI 分享了一种查找洪量「特色」的全新要领 —— 或许这会成为可注释的一种可用方向。OpenAI 表示,新要领比此前的一些思路更具可扩张性,研讨团队应用它们在 GPT-4 中找到了 1600 万个特色。

有趣的是,从作者列表中,我们发现已经从 OpenAI 离职的 Ilya Sutskever、Jan Leike 等人也是作者之一。

Ilya参与,OpenAI给GPT-4搞可注释,提取了1600万个特色,还能看它怎么想

可谓是一项重要的研讨。

论文标题:Scaling and evaluating sparse autoencoders

论文地址:https://cdn.openai.com/papers/sparse-autoencoders.pdf

代码:https://github.com/openai/sparse_autoencoder

特色可视化:https://openaipublic.blob.core.windows.net/sparse-autoencoder/sae-viewer/index.html

注释神经网络

作为机器进修模型,神经网络通过应用模仿生物神经元协同工作的过程来辨别现象并得出结论,然而长久以来,我们并不真正了解神经网络的内部运作原理。神经网络并不是直接设计的,研讨人员设计了训练它们的算法。由此产生的神经网络还不能很好地被理解,并且不能轻易地分解为可辨别的部分。这意味着我们不能像推理汽车安全那样推理人工智能安全。

为了理解和注释神经网络,首先需要找到用于神经计算的有用构建块。然而,说话模型内的神经激活是以不可预测的模式激活的,似乎同时代表许多观点,它们还密集激活,这意味着每次激活总是在每个输入上触发。

但现实世界的观点非常茂密 —— 在任何给定的上下文中,所有观点中只有一小部分是相关的。这激发了茂密主动编码器的应用。

茂密主动编码器(sparse autoencoder)是一种辨别神经网络中少数「特色」的要领,这些「特色」对于产生任何给定的输出都很重要,类似于一个人在推理某种情况时可能想到的一小部分观点。它们的特色显示出茂密的激活模式,自然地与人类易于理解的观点保持一致,即使没有直接的可注释性激励。

Ilya参与,OpenAI给GPT-4搞可注释,提取了1600万个特色,还能看它怎么想

然而,训练茂密主动编码器仍然面临严峻的挑战。大型说话模型表征洪量观点,主动编码器可能需要相应巨大的规模才能接近完全覆盖前沿模型中的观点。进修洪量茂密特色具有挑战性,并且过去的工作尚未证明可以很好地扩张。

大规模主动编码器训练

OpenAI 最新的研讨进展提出了一种新要领,能够将茂密主动编码器扩张到前沿人工智能模型上的数千万个特色。并且该要领显示出平滑且可预测的扩张,与现有要领相比具有更好的规模回报。同时,OpenAI 还引入了几个用于评估特色质量的新指标。

OpenAI 应用该要领在 GPT-2 small 和 GPT-4 激活上训练各种主动编码器,包括 GPT-4 上的 1600 万个特色的主动编码器。

具体来说,研讨团队在 GPT-2 small 模型和一系列逐步增大的、共享 GPT-4 架构和训练设置的模型(包括 GPT-4 本身)的残差流上训练主动编码器。他们选择了靠近网络末端的一层,该层应包含许多特色,而不专门用于下一个 token 的预测。

所有实验均应用 64 个 token 的上下文长度。研讨团队先在 dmodel 维度上减去平均值,并将所有输入归一化为单位范数(unit norm),然后再传递给主动编码器(或计算重建误差)。 

训练结束后,研讨团队根据茂密性 L_0 和重建均方误差 (MSE) 对主动编码器进行评估。

为了简化分析,OpenAI 不考虑进修率预热或衰减,sweep 小规模的进修率,并推断大规模的最佳进修率的趋势。

为了检查特色的可注释性,OpenAI 进行了可视化工作。以下是 OpenAI 发现的一些可注释的特色:

人类的缺陷;

价格上涨;

X 和 Y;

训练 Log;

反问句;

代数环;

谁 / 什么;

多巴胺。

Ilya参与,OpenAI给GPT-4搞可注释,提取了1600万个特色,还能看它怎么想

Ilya参与,OpenAI给GPT-4搞可注释,提取了1600万个特色,还能看它怎么想

例如,GPT-4 特色:与事物(尤其是人类)有缺陷相关的短语:

Ilya参与,OpenAI给GPT-4搞可注释,提取了1600万个特色,还能看它怎么想

价格上涨:

Ilya参与,OpenAI给GPT-4搞可注释,提取了1600万个特色,还能看它怎么想

反问句:

Ilya参与,OpenAI给GPT-4搞可注释,提取了1600万个特色,还能看它怎么想

局限和发展方向

新要领能够提高模型的可信度和可操纵性。然而这仍是早期工作,存在许多局限性:

与此前的研讨一样,许多发现的特色仍然难以注释,许多特色的激活没有明确的模式,或者表现出与它们通常编码的观点无关的虚假激活。此外,目前我们还没有很好的要领来检查注释的有效性。

茂密主动编码器不会捕获原始模型的所有行为。目前,将 GPT-4 的激活通过茂密主动编码器大致相当于应用大约 1/10 计算量训练一个模型。为了完全映射前沿 LLM 中的观点,我们可能需要扩张到数十亿或数万亿个特色,即便应用改进的扩张技术,这也具有挑战性。

茂密主动编码器可以在模型中的某一点找到特色,但这只是注释模型的一步。还需要做更多的工作来了解模型如何计算这些特色以及如何在模型的其余部分下游应用这些特色。

茂密主动编码器的研讨令人兴奋,OpenAI 表示,还有一些待解决的挑战。短期内,工程师们希望新发现的特色能够实际用于监控和控制说话模型行为,并计划在前沿模型中对此进行测试。希望最终有一天,可注释性可以为我们提供推理模型安全性和稳健性的新要领,并通过对 AI 行为提供强有力的保证,大幅提高我们对新一代 AI 模型的信任。

参考内容:

https://openai.com/index/extracting-concepts-from-gpt-4/

给TA打赏
共{{data.count}}人
人已打赏
工程

ACL 2024 | 让纯LLM实现类人的标记逻辑推理能力,开源框架SymbCoT来了

2024-6-7 14:13:00

工程

轻松建立聊天机器人、准确性新SOTA,RAG有了更强大的AI检索器

2024-6-9 0:42:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索