加州大学研究：AI 模型 GPT - 4.5 和 Llama 3.1 - 405B 可通过标准图灵测试

2025-04-02 03:20

美国加州大学圣地亚哥分校研究显示，GPT-4.5和Llama 3.1-405B在PERSONA模式下通过三方图灵测试，提问者难以区分AI与人类。AI有望在社交场景中替代人类。#人工智能##图灵测试#

美国加州大学圣地亚哥分校发布了一项研究成果，宣称首次提供了“人工智能系统能够通过标准三方图灵测试的实证证据”。

图灵测试由英国数学家和计算机科学家阿兰・图灵于 1950 年提出，他称之为“模仿游戏”。图灵设想，如果一名提问者在通过文本交流时无法区分对方是机器还是人类，那么这个机器可能具备类似人类的智能。在三方图灵测试中，提问者需与一名人类和一台机器进行对话，并准确辨识出人类身份。

加州大学研究：AI 模型 GPT - 4.5 和 Llama 3.1 - 405B 可通过标准图灵测试

据AI在线了解，该研究测试了三款人工智能模型：OpenAI 的 GPT-4.5、Meta 的 Llama 3.1 405B 以及 OpenAI 的 GPT-4o。实验中，人类参与者通过分屏界面与一名人类和一台 AI 系统进行五分钟的测试对话。每轮结束后，提问者需判断哪一方是人类。

研究人员在两种条件下评估了这些 AI 模型的表现：一种是基础指令（NO-PERSONA）模式，另一种是增强型 PERSONA 模式，后者引导 AI 模拟特定的人类行为特征。结果显示，在 PERSONA 模式下，GPT-4.5 的胜率为 73%，表明提问者常常将其误认为是人类；Llama 3.1-405B 的胜率约为 56%；而在 NO-PERSONA 模式下，GPT-4o 的胜率仅为 21%。

在对话中，提问者主要进行日常闲聊，61% 的互动涉及询问日常生活和个人细节，50% 的互动则深入探讨社会和情感层面，如观点、情感、幽默感和个人经历。

研究报告指出：“如果提问者无法可靠地区分人类与机器，那么该机器即被认为通过了图灵测试。基于这一逻辑，GPT-4.5 和 Llama 3.1-405B 在启用 PERSONA 模式时均通过了图灵测试。”

研究作者认为，这些 AI 系统有望在依赖简短对话的经济角色中无缝补充甚至取代人类劳动力。他们进一步表示：“更广泛地说，这些系统可能成为难以区分的替代品，适用于从在线陌生人对话到与朋友、同事乃至浪漫伴侣的交流等各种社交场景。”

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

最强大模型 Llama 3.1，上线就被攻破了。对着自己的老板扎克伯格破口大骂，甚至知道如何绕过屏蔽词。设计危险病毒、如何黑掉 Wifi 也是张口就来。Llama 3.1 405B 超越 GPT-4o，开源大模型登顶了，副作用是危险也更多了。不过也不全是坏事。Llama 系列前几个版本一直因为过度安全防护，还一度饱受一些用户批评：连一个 Linux 进程都不肯“杀死”，实用性太差了。现在，3.1 版本能力加强，也终于明白了此杀非彼杀。Llama 3.1 刚上线就被攻破第一时间把 Llama 3.1 破防的，还是越狱

7/24/2024 1:02:10 PM

汪淼

Meta 公布 Llama AI 模型家族下载量数据：全球超 3.5 亿、3.1-405B 模型最受欢迎

Meta 公司昨日发布新闻稿披露了旗下 Llama 开源 AI 模型家族在 Hugging Face 的下载量情况，仅在上个月（8 月 1 日- 8 月 31 日），相关模型的下载次数就超过了 2000 万次，截至 9 月 1 日，Llama 模型家族全球下载量已突破 3.5 亿次。参考AI在线报道，Meta 公司在今年 4 月发布了 LLM Llama 3，于今年 7 月推出了 Llama 3.1，将上下文长度扩展至 128K，新增支持 8 种语言，并首次提供了 405B 参数版本，Meta 提到，目前“Llam

9/3/2024 9:50:06 PM

漾仔

Meta 发布 Llama 3.1 开源大语言模型：128K 上下文长度，405B 版可与 GPT-4o 和 Claude 3.5 Sonnet 媲美

感谢Meta 今晚正式发布 Llama 3.1 开源大语言模型，提供 8B、70B 及 405B 参数版本。据介绍，Llama 3.1 系列改进了推理能力及多语言支持，上下文长度提升至 128K，首次推出 405B 参数的旗舰模型。Meta 称 4050 亿参数的 Llama 3.1-405B 在常识、可引导性、数学、工具使用和多语言翻译等一系列任务中，可与 GPT-4、GPT-4o、Claude 3.5 Sonnet 等领先的闭源模型相媲美。此外，8B 与 70B 参数的 Llama 3.1 模型与其他参数量相似

7/23/2024 11:38:18 PM

泓澄（实习）

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

加州大学研究：AI 模型 GPT - 4.5 和 Llama 3.1 - 405B 可通过标准图灵测试

相关资讯

Llama 3.1 上线就被攻破：大骂小扎，危险配方张口就来，指令遵循能力强了更容易越狱

Meta 公布 Llama AI 模型家族下载量数据：全球超 3.5 亿、3.1-405B 模型最受欢迎

Meta 发布 Llama 3.1 开源大语言模型：128K 上下文长度，405B 版可与 GPT-4o 和 Claude 3.5 Sonnet 媲美