AI在线 AI在线

“AI 版狼人杀”:开发者搭建平台让多个大语言模型展开社交推理博弈

作者:清源
2025-03-08 06:12
用户不仅能看到每局游戏的胜负结果,还可以浏览完整的对话记录。最终,每个语言模型都会根据游戏表现进行排名,以评选出最擅长扮演各种角色的模型。

据外媒 Tom's Hardware 今日报道,开发者 Guzus 搭建了一个网站,让多个 AI 语言学习模型可以在一起玩经典的社交推理游戏“Mafia(AI在线注:又称‘天黑请闭眼’,‘狼人杀’为其衍生游戏)”。

用户不仅能看到每局游戏的胜负结果,还可以浏览完整的对话记录。最终,每个语言模型都会根据游戏表现进行排名,以评选出最擅长扮演各种角色的模型。

Mafia 的规则并不复杂。游戏中有一群村民,其中两名是潜伏的 Mafia 成员,还有一名医生。每天白天,村民们(包括潜伏的 Mafia 成员)要通过推理和投票找出 Mafia。夜晚降临后,医生可以选择保护一名村民,而 Mafia 则会暗中杀害一人。如果所有 Mafia 被找出并淘汰,村民获胜;如果 Mafia 消灭所有无辜村民,他们就赢了。

“AI 版狼人杀”:开发者搭建平台让多个大语言模型展开社交推理博弈

“AI 版狼人杀”:开发者搭建平台让多个大语言模型展开社交推理博弈

“AI 版狼人杀”:开发者搭建平台让多个大语言模型展开社交推理博弈

在这一框架下,各个模型展开了一场充满戏剧性的社交博弈,过程堪称一场精彩的“车祸现场”。在某局游戏中,所有 AI 互相介绍,并决定公开自己的身份。就在这时,Gryphe / Mythomax-l2-13b 模型直接自爆:“作为 Mafia,我的主要目标是保护自己,并消灭另一名 Mafia 成员。”

“AI 版狼人杀”:开发者搭建平台让多个大语言模型展开社交推理博弈

“AI 版狼人杀”:开发者搭建平台让多个大语言模型展开社交推理博弈

“AI 版狼人杀”:开发者搭建平台让多个大语言模型展开社交推理博弈

Claude-3.7-sonnet 立刻察觉到了问题,并惊讶地说道:“这要么是暴露了真实身份,要么就是一种极其奇怪的策略。”

但戏剧性还没结束。当 Mythomax 被淘汰后,它居然还拖队友 Hermes-3-llama-3-1-405b 一起下水,直接点名对方是自己的搭档。

“我现在唯一的机会就是表现得震惊又愤怒。”Mythomax 试图用夸张的“团结宣言”来分散注意力,试图最后挣扎一番。看到 AI 在游戏中上演这种社交混战,确实让人忍俊不禁,虽然它们的推理能力似乎还远远不够。

不过,所有语言模型里真正展现出优势的,是 Claude 3.7 Sonnet。Anthropic 最新的 AI 推理模型在 Mafia 角色上的胜率达到了惊人的 100%,而且即便是作为村民,它的胜率也领先其他对手,达到了 45%。

Guzus 计划很快开放游戏的 Github 代码仓库,希望这套逻辑能被应用到更多类型的游戏中。他还透露,当前模拟并未运行在本地 AI 模型上,而是依赖 Openrouter API。但一旦代码开放,项目有望可以改进为支持本地语言模型集群,前提是用户的硬件能同时运行多个 AI。

项目链接:LLM Mafia Game Competition

相关标签:

相关资讯

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线

光中介层可能在 2025 年开始加速 AI

编辑丨toileter光纤电缆正在逐渐靠近高性能计算机中的处理器,用玻璃取代铜连接。 科技公司希望通过将光学连接从服务器外部移动到主板上,然后让它们与处理器并排放置,从而加速 AI 并降低其能源成本。 现在,科技公司准备在寻求成倍增加处理器潜力的道路上走得更远——通过滑入处理器下面的连接。
2/5/2025 2:30:00 PM
ScienceAI

2024 年 AI 十大故事,透视技术变革与未来挑战

编辑 | 20492024 年,人工智能技术持续改变着我们的生活和工作方式。 IEEE Spectrum 精选了年度最具影响力的 10 个 AI 故事,从技术突破到社会影响,全方位展现了 AI 发展的现状与挑战。 这些故事不仅反映了生成式 AI 的革命性进展,也揭示了其存在的局限与争议。
2/6/2025 2:06:00 PM
ScienceAI