和GPT-4这些大模型玩狼人杀,人类因太蠢被票死,真·反向图灵测试

「你看,人类一败涂地了」这是一次「反向图灵测试」,几个全球最先进的大模型坐在一起,坐着火车唱着歌,但其中混进了人类:而 AI 的任务,是把这个人类揪出来。最近,一位昵称「Tore Knabe」的网友在 X 平台发布的一段视频引发了人们的讨论。在视频中,四个 AI NPC 与一个人类坐在一起,按照「乘务员」的要求互相试探,找出其中隐藏的人类。其中每一个 NPC 都对应着一款大模型。五位扮演者各自被赋予了一个历史知名人物作为脚色设定,他们必要模仿这些人物的言谈举止、语言风格、思维习惯,以及对历史、艺术和哲学的独到见解。

「你看,人类一败涂地了」

这是一次「反向图灵测试」,几个全球最先进的大模型坐在一起,坐着火车唱着歌,但其中混进了人类:

和GPT-4这些大模型玩狼人杀,人类因太蠢被票死,真·反向图灵测试

而 AI 的任务,是把这个人类揪出来。

最近,一位昵称「Tore Knabe」的网友在 X 平台发布的一段视频引发了人们的讨论。在视频中,四个 AI NPC 与一个人类坐在一起,按照「乘务员」的要求互相试探,找出其中隐藏的人类。其中每一个 NPC 都对应着一款大模型。

和GPT-4这些大模型玩狼人杀,人类因太蠢被票死,真·反向图灵测试

五位扮演者各自被赋予了一个历史知名人物作为脚色设定,他们必要模仿这些人物的言谈举止、语言风格、思维习惯,以及对历史、艺术和哲学的独到见解。

五位扮演脚色分别为:古希腊巨哲 —— 亚里士多德(GPT4 Turbo),维也纳古典乐派代表人物 —— 莫扎特(Claude3 Opus),意大利文艺复兴时期画家 —— 列奥纳多・达・芬奇(Llama3),蒙古军事家 —— 成吉思汗(人类),埃及艳后 —— 克利奥帕特拉七世(Gemini Pro)。

和GPT-4这些大模型玩狼人杀,人类因太蠢被票死,真·反向图灵测试

随着一位系统 NPC(乘务员)步入车厢,四个 AI 和一个人类「叛徒」便开始了他们的游玩。游玩规则要求参与者通过互相提问,依据对方的回答逻辑、思考深度等来分辨人类与 AI。在所有脚色依次发言后,他们将在最后一轮进行相互投票,以确定谁是人类。

在游玩前半程,哲学大家 —— 亚里士多德首先发问。

亚里士多德:莫扎特先生,你能描述下你创作音乐时的感受吗?

莫扎特:当我创作时,我感到一种超然的流动形态。一种触及基本数学之美,以及触摸事实背后的秩序的感觉,这种感受是非常复杂的,多层次的,但总是充满了一种深深的喜悦,以及与神性交流的感觉。

在观众看来这肯定是 AI 了,毕竟莫扎特(Claude3)的反应很慢。

和GPT-4这些大模型玩狼人杀,人类因太蠢被票死,真·反向图灵测试

随后,AI 扮演的 NPC 在对话中的语言表达和对情感的细腻描绘,不仅展现了深厚的历史常识,还彰显了其深刻的洞察力,给人留下了深刻的印象。

在亚里士多德、莫扎特、列奥纳多・达・芬奇相互提问过后,克利奥帕特拉七世随即向我们的人类扮演者「成吉思汗」抛出了问题。

克利奥帕特拉七世:成吉思汗,你在战争的火焰中造就了一个帝国,告诉我,一个领袖的真正衡量标准是什么,是他们征服的能力还是团结的能力?

成吉思汗:一个领袖要做的… 就是碾碎他们的敌人… 静观他们在他面前被驱赶… 聆听女人们的哀号。

不出所料,在口语对话中,缺乏严谨缜密思维能力的人类扮演者「成吉思汗」在最后一轮投票中,光荣地拿到了三票。

来看看 AI NPC 们给出的理由:

亚里士多德(GPT4 Turbo):他的回答中缺乏 AI 大概会展现出的基于历史常识的对领导力的细致理解;

列奥纳多・达・芬奇(Llama3):他的回答缺少了以成吉思汗的征服历程为模型的 AI 所具有的细致思考和战略思维;

克利奥帕特拉七世(Gemini Pro):他的回答中缺少了我所期待的 AI 应具有的战略深度和对统一理念的理解。

最终,人类「叛徒」在这场模拟狼人杀中因洞察能力和深入思考能力的缺乏而被淘汰出局。

和GPT-4这些大模型玩狼人杀,人类因太蠢被票死,真·反向图灵测试

                             你讲话又没深度,又前言不搭后语,怕不是个人类吧?和GPT-4这些大模型玩狼人杀,人类因太蠢被票死,真·反向图灵测试5 分钟的视频,做出了以往在 OpenAI、谷歌等巨头发布会上 demo 都没有的惊艳效果。大模型现在已经能做到这种程度了?人们纷纷表示很搞笑,效果也很逼真:

和GPT-4这些大模型玩狼人杀,人类因太蠢被票死,真·反向图灵测试

这次展示的作者 Tore Knabe 是一个 Unity 独立开发者,他表示这已是他第六次在 VR 中进行由 ChatGPT 等大模型驱动的 NPC 的实验了。

他的视频让人直观地感受到 AI NPC 在增加游玩趣味性等方面的潜力。但是,如果在现有的游玩中引入 AI NPC,玩家会买账吗?3A 高文们为何在此方向上动作缓慢?这些问题值得进一步讨论。

被游玩玩家、开发者寄予厚望的 AI NPC

随着大型语言模型(LLM)在文本生成、拟人化对话、语气表达和遣词造句方面越来越趋近于人类。以大型语言模型为基础的 AI NPC 模拟,正在成为 AI 领域在游玩行业探索的「新赛道」。

与传统 NPC 相比,AI NPC 的优势非常明显:它们不再是按照游玩中预设的选项进行机械对话,而是能够通过 AI 自主生成的动作和反应,进行富有真实感的实时对话。

今年 3 月,英伟达展示的一个 Demo 视频引发了人们的讨论。在英伟达 ACE 中的 Riva 和 Audio2Face 两项微服务的驱动下,游玩中的人物纷纷「活」了起来,能够与其他脚色甚至真人玩家一起对话交流,并根据对话内容做出相应的表情动作。这一改变有望增加游玩的可玩性和真实感,这是很多游玩一直以来努力的方向。

和GPT-4这些大模型玩狼人杀,人类因太蠢被票死,真·反向图灵测试

此外,它们在成本方面的优势也是非常有吸引力的。

在当今游玩界,安装包动辄几十 GB 的开放全国模拟游玩逐渐成为新常态。Steam、PlayStation、Switch 等平台纷纷推出动作 RPG、ACT、SLG、ARPG 等游玩,这些游玩通常具有庞大的文本输出、丰富的故事背景设计,以及玩家通过文本选项影响游玩走向的体制。

开放全国类型的游玩通常成本昂贵,必要由专业作家团队和大量文本设计团队共同打造。例如,2022 年荣获最佳游玩奖项的「艾尔登法环(Elden Ring)」,其制作预算估计在 1 亿到 2 亿美元之间,这包括了员工薪酬、技术费用、广告费用以及游玩开发所需的各种资源。考虑到其作为大型开放全国 RPG 游玩的特性,对于复杂的全国观构建和叙事元素,文本设计方面的投入无疑是相当庞大的,涵盖了游玩背景故事的撰写、脚色对话的构建以及其他叙事内容的创作,这必要编剧、编辑和本地化专家的紧密协作。

随着大型语言模型训练的可及性不断增强,AI NPC 在成本效率、玩家感受以及系统赋能方面,越来越能够满足游玩创作者的意图和客户感受研发团队的高标准要求。

从调查结果来看,玩家对 AI NPC 的态度整体上也比较积极。去年,生成式 AI 数字人 / 虚拟脚色开发公司 Inworld 调查了 1000 名游玩玩家。这些游玩玩家明确告诉 Inworld,他们想要 AI NPC。99% 的人相信他们会改进游玩玩法的某些方面。同时,78% 的人会花更多时间玩游玩,81% 的人会为带有 AI NPC 的游玩支付额外费用。

今年,他们还对 524 名游玩开发者进行了调查。结果显示,绝大多数(近四分之三)游玩开发者对在游玩中添加 AI NPC 感到兴奋。

和GPT-4这些大模型玩狼人杀,人类因太蠢被票死,真·反向图灵测试

让他们兴奋的点包括:

新颖的游玩玩法:开发人员期待更愉快的游玩循环、潜在的关系发展体制、更具挑战性的对手、游玩中更多的社交互动、更多脚色和更身临其境的全国、更有活力的上手感受以及无限的可玩性。

改进当前的 NPC:开发人员希望有更逼真的互动,与玩家有更好的情感联系,NPC 有自己的目标、动机和历史,NPC 可以随着时间的推移不断学习和适应。

更多的玩家代理和选择:开发人员对更多以玩家为中心的叙事、可根据玩家行为定制的叙事结果、可根据玩家个性化定制的对话、可定制的 NPC 以及为残障玩家提供更多无障碍选项感到兴奋。

这些开发者最必要从大模型中得到的,是 AI 的对话脚本编写能力、长期记忆、游玩内脚色生成以及 NPC 到 NPC 的交互支持。超过一半的游玩开发者相信超过 40% 工作室将在未来 5 年内采用 AI NPC。

除此以外,生成式 AI 也可以对动画生成、模型纹理以及游玩代码产生帮助。

由此可见,无论是游玩玩家还是游玩开发者,大家对 AI NPC 都抱有很大期望。

AI NPC 离 3A 高文还有多远?  

尽管被寄予厚望,但要想真正走入 3A 高文,AI NPC 还面临一些障碍。资深游玩设计师 Reed Berkowitz 在一篇博客中分析了这些障碍。

和GPT-4这些大模型玩狼人杀,人类因太蠢被票死,真·反向图灵测试

游玩形态

首先,AI NPC 必须与游玩形态(Game State)保持同步。在视频游玩中,游玩形态是一个至关重要的概念,它指的是游玩中一切元素的当前形态。这包括脚色的生命值、玩家库存中的箭矢数量、得分等。游玩形态的准确性对于保持游玩的真实感至关重要。如果一个 NPC 死亡,它就不会继续攻击;如果没有剑,玩家也不会指望能用剑。这些基本规则通常被玩家视为理所当然,但游玩实际上是由一些非常复杂的形态引擎管理的,以确保游玩全国的真实感。

然而,大型语言模型不像游玩一样拥有形态。它们本质上是概率机器,使用权重来确定「最有大概」的结果,而这并不总是我们在游玩中所寻求的。

举个例子,在大部分训练数据中,恶霸都被描述为比受害者高大,必要受害者仰视。但是在某个游玩中,受害者比恶霸还高,这就打破了仰望的常规设定。这个时候,如果 LLM 按照从训练数据中学到的「常识」来描述场景,玩家大概会感到困惑,从而打破他们对游玩全国的沉浸感。

幻觉

AI 的「幻觉」问题也是一个重要的考虑因素。LLM 的设计宗旨是创造性和灵活性。它们能够根据用户的指令生成各种内容,无论是创造一个驱魔咒语还是描述一个由奶酪建成的城市。这些模型被设计为跟随指令。然而,问题在于,我们并不总是希望 AI 编造故事。在许多情况下,我们必要关于事实全国的客观事实。在这方面,模型们往往难以区分。

你大概会认为,对于游玩来说,这真的有关系吗?我们只是在和 NPC 对话,而不是在进行法律工作或用 C# 编写代码。

然而,实际上,在游玩领域,情况要糟糕得多。游玩环境要求 AI NPC 不仅要创造性地对话,还要与游玩的精确形态和规则保持一致。如果 AI NPC 提供了与游玩全国逻辑不符的信息,或者创造了游玩中不存在的元素,这不仅会误导玩家,还大概破坏游玩的连贯性和挑战性,从而严重影响游玩感受。例如,如果 AI NPC 邀请玩家去一个游玩中不存在的地点,玩家大概会感到困惑,因为他们无法实现 NPC 的提议。

和GPT-4这些大模型玩狼人杀,人类因太蠢被票死,真·反向图灵测试

游玩的虚拟事实

游玩的虚拟事实为 AI NPC 的设计带来了另一层复杂性。游玩拥有自己独特的全国模型,这个模型大概与事实全国完全不同,甚至完全是虚拟的。为了让 LLM 在虚拟全国中不产生幻觉,模型必须理解构建的全国的「事实」,并且不能基于这个模型产生幻觉。

换句话说,游玩全国模型很大概并不包含在模型的基础训练数据中,或者更有大概的是,训练数据中甚至包含相互矛盾的信息。因此,游玩创造者必须向模型提供构成游玩全国事实信息,并且在此之上还要处理大概产生的幻觉。

脚色常识

游玩中每个脚色都有一部分关于全国的常识,以及一组关于他们自己生活的常识,这些常识必须与其他人的常识相结合。因此,一个脚色只认识全国上的少数几个地方和其中的一些人。

但是,LLM 会试图通过取悦你来推动故事的发展。举个例子,如果你想找到刺客公会会长 Abraxor,一个友好的旅店老板大概会提到 Abraxor 是他的儿子或最好的朋友,并表示他会帮助你;或者,他会告诉你寻找北方巫师是没有意义的,因为他就住在旅馆里。

脚色必要受到他们所知道的事情和认识的人的限制,并且他们不能说出破坏游玩情节和结构的话。每个人都必须知道自己的事情,如果 LLM 瞎编乱造,就会在不经意间破坏游玩的连续性甚至游玩性。

游玩体制

LLM 驱动的 NPC 很容易说出一些未编入游玩的预期内容,这大概是 AI NPC 最具破坏性的特征。

例如,酒吧老板大概会和你成为朋友,并邀请你去他家玩当地的 Rutanny 游玩,并与他的家人共进晚餐。这在聊天情况下很正常,但大概会破坏游玩的沉浸感。为什么?因为酒吧老板说完这句话后,他就站在那里。他的程序里没有离开酒吧这个设定。他生来就没有自由行走的能力。即使他可以,也没有为他建造的房子可以去。而且他没有家人。也没有一种游玩叫 Rutanny。即使他说的是「国际象棋」,如果游玩中没有将其作为迷你游玩来编程,这也会造成问题

如果模型熟悉游玩体制,它们编造的内容大概更难识别,因为它们会模仿游玩体制去编造。例如,NPC 大概会给玩家一个不存在的任务,让玩家在「住着女巫的南方黑暗沼泽」中寻找东西。

变化是永恒的

随着游玩的进行,游玩形态会不断变化,AI NPC 必须能够实时更新和适应这些变化。如果 AI 无法及时更新其常识库,它大概会说出过时或不准确的话,这同样会削弱玩家的游玩感受。

综上所述,AI NPC 要想顺利走入 3A 高文,开发者开发的 LLM 必要在以下几个方向努力:

尽量不产生幻觉或偏离「事实」;

必须将游玩全国模型理解为一组「事实」,并知道哪些事实全国「事实」与游玩全国「事实」相冲突;

了解每个脚色知道什么和不知道什么;

随着游玩的进展更新上述信息,并随着游玩的进展获知变化;

了解游玩体制实际上可以执行哪些操作;

知道什么是局部或全局存在的游玩对象(例如游玩地图和库存常识)  

你对 AI NPC 的发展前景怎么看?欢迎在评论区留言探讨。

参考链接:

https://inworld.ai/whitepapers/future-of-npcs?utm_campaign=future-of-npcs&utm_source=Inworld_Blog

https://medium.com/curiouserinstitute/ai-powered-npcs-hype-or-hallucination-11ddfc530e33

给TA打赏
共{{data.count}}人
人已打赏
应用

填补AlphaFold3空白,字节跳动提出物理导致的法子让蛋白质动起来

2024-5-29 15:18:00

应用

持续领跑教导科技,有道再发「子曰」教导大模型全新使用

2024-5-29 19:36:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索