据外媒 TechCrunch 今日报道,研究的合著者表示,要“对齐”AI 系统,即“确保其行为符合预期且稳定可靠”可能比原先想法更加困难。合著者强调,当前的 AI 技术存在幻觉,并且具备模仿能力,这使得其行为变得不可预测。
麻省理工学院的博士生、研究合著者斯蒂芬・卡斯珀在表示:“我们可以肯定,模型并不遵循许多关于稳定性、外推性和可操作性的假设。虽然指出一个模型在某些条件下会表现出某些偏好是合理的,但当我们基于狭窄的实验结果来做出广泛的推断时,问题才真正出现。”
卡斯珀和他的团队对 Meta、谷歌、Mistral、OpenAI 和 Anthropic 等公司的多个模型进行了研究,考察它们是否展现出明确的“观点”或“价值观”(比如个人主义和集体主义的对立)。他们还调查了这些观点是否可以被“引导”或修改,并分析了模型在不同场景下对这些观点的坚持程度。
AI在线从报道中获悉,合著者们表示,这些模型在偏好上的表现极其不一致。根据输入提示的措辞和框架,模型的反应可能会发生很大的变化。
卡斯珀认为,这为模型的“不一致性和不稳定性”提供了有力证据,并且可能表明这些模型本质上无法像人类一样内化和坚持价值观。
卡斯珀补充道:“对我来说,做这项研究的最大收获是,我现在意识到这些模型根本不是拥有稳定、一致信念和偏好的系统。相反,它们本质上只是模仿者,进行各种编造,发表一些无关紧要的言论。”