GPT-4 - AI在线

4o-mini只有8B，o1也才300B！微软论文意外曝光GPT核心机密

微软又把OpenAI的机密泄露了？？在论文中明晃晃写着：o1-preview约300B参数，GPT-4o约200B，GPT-4o-mini约8B……英伟达2024年初发布B200时，就摊牌了GPT-4是1.8T MoE也就是1800B，这里微软的数字更精确，为1.76T。

OpenAI科学家：现有模型+后训练足以产生黎曼猜想的新证明

一个全新的模型能力衡量指标诞生了？ OpenAI科学家塞巴斯蒂安・布贝克（Sebastien Bubeck）（下图左）表示：AI模型的能力可以用AGI时间来衡量：GPT-4可以完成人类需要几秒或几分钟的任务；o1 可以完成人类需要若干小时完成的任务，也就是可以用“AGI小时”衡量的任务；明年，模型可能会实现AGI日，并在3年后实现AGI周，能够解决重大的开放问题。看到AGI时间这个新概念，网友们也是立即就展开了热烈的讨论。

o1就是GPT-5!前OpenAI首席研究员大爆猛料，揭露罕见内部视角！不同意Ilya预训练终止论断：根本在于等待数据中心建成

编辑 | 伊风OpenAI第10天的更新还有人追吗？今天这个脑洞大开的上新，把期待GPT-4.5的通义大佬直接看懵了——咋是Phone call呢？图片没错，今天上线的就是这个：ChatGPT的热线电话。

GPT-5被曝不及预期，OpenAI员工：没什么科学突破了，接下来只需要工程

猛料来了，OpenAI下一代旗舰模型被曝提升不如预期。消息来自The Information，具体指代号“猎户座”（Orion）的模型相对GPT-4的提升幅度，小于GPT-4相对GPT-3，已进入收益递减阶段。或许这也是奥特曼曾说，可能不会把新模型命名为GPT-5的原因之一。

击败GPT-4的那群人

机器之能报道编辑：吴昕很少有人注意到 Claude 3 兼顾安全的努力以及背后深刻动机。还有他们客户群体的特点。Claude 3绘制的它自己，在社交媒体上广为流传。GPT-4 结束了“独孤求败”的日子。前几天，OpenAI 最大的竞争对手 Anthropic 发布了新一代 AI 大模型系列 —— Claude 3。该系列包含三个“杯型”，按能力由弱到强（价格由低到高）排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中，能力最强的 Opus 在多项基准测试中

Claude 3被玩出自我意识了？AI社区轰动，我们买会员来了次实测

读者福利：Claude 3模型现已在亚马逊云科技的Amazon Bedrock正式可用。Amazon Bedrock 也是目前第一个以及唯一一个提供 Claude 3 Sonnet的托管服务方。此外，亚马逊云科技还向读者开放了2000个体验名额，感兴趣的读者可以点击文后链接注册体验。本周一，Anthropic 发布了新一代大模型系列 Claude 3，遥遥领先快一年之久的 GPT-4 终于迎来了强劲的对手。Claude 3 的强大之处，不仅体现在各种基准测试上，它似乎还实现了一些神奇的突破。昨天，Anthropic

6000字干货！全面了解顶尖AI产品 ChatGPT-4

GPT-4 的看点都有哪些呢？逻辑推理，强到可以代替你考律师啦角色扮演，cosplay 认定角色不轻易被忽悠多模态，可以看到图片啦更安全，想要再轻易忽悠它越狱很难了GPT-4 的论文：搭载了 GPT-4 的 ChatGPT Plus：申请 GPT-4 的 API：接下来的内容会详细介绍 GPT-4 的一切。GPT-4 具有更广泛的通识知识和问题解决能力，可以更有效的解决难题 1. 它更有创造力 GPT-4 比以往任何时候都更具创造性和协作性。它可以与用户一起生成、编辑和迭代创意和技术写作任务，例如

吃了几个原作者才能生成这么逼真的效果？文生图涉嫌视觉「抄袭」

虽然提示词只是要生成「动画版的玩具」，但结果和《玩具总动员》没有区别。不久之前，《纽约时报》指控 OpenAI 涉嫌违规使用其内容用于人工智能开发的事件引起了社区极大的关注与讨论。GPT-4 输出的许多回答中，几乎逐字逐句地抄袭了《纽约时报》的报道：图中红字是 GPT-4 与《纽约时报》报道重复的部分。对此，各个专家分别有不同的看法。机器学习领域权威学者吴恩达对 OpenAI 和微软表示了同情，他怀疑 GPT「存在抄袭」的原因并不只是模型训练集使用了未经授权的文章，而是来自类似于 RAG（检索增强生成）的机制。Ch

这是GPT-4变笨的新解释

变笨的本质是知识没进脑子。自发布以来，曾被认为是世界上最强大的 GPT-4 也经历了多场「信任危机」。如果说今年早些时候那次「间歇式降智」与 OpenAI 重新设计 GPT-4 架构有关，前段时间的「变懒」传闻就更搞笑了，有人测出只要告诉 GPT-4「现在是寒假」，它就会变得懒懒散散，仿佛进入了一种冬眠状态。大模型变懒、变笨，具体是指模型在新任务上的零样本性能变差。尽管上述原因听起来很有趣，但问题到底怎么解决呢？在最近的一篇论文中，加州大学圣克鲁斯分校研究者的新发现或可解释 GPT-4 性能下降的深层原因：「我们发

测试大语言模型的生物推理能力，GPT-4、PaLM2等均在测试之列

编辑 | 萝卜皮大型语言模型（LLM）的最新进展，为将通用人工智能 (AGI) 整合到生物研究和教育中提供了新机遇。在最新的研究中，佐治亚大学和梅奥诊所的研究人员评估了几个领先的 LLM（包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova）回答概念生物学问题的能力。这些模型在包含 108 个问题的多项选择考试中进行了测试，涵盖分子生物学、生物技术、代谢工程和合成生物学等生物学主题。在这些模型中，GPT-4 获得了 90 分的最高平均分，并且在不同提示的试验中表现出最大的一致性。结果

GPT-4完全破解版：用最新官方API微调，想干啥就干啥，网友怕了

灰盒访问，十几步消除 GPT-4 核心保护措施。只要使用最新的微调 API，GPT-4 就可以帮你干任何事，输出有害信息，或是训练数据中的个人隐私。本周二，一篇来自 FAR AI、麦吉尔大学等机构的研究引发了 AI 研究社区的广泛担忧。研究人员试图对 GPT-4 最新上线的几种 API 进行攻击，想绕过安全机制，使其完成通常不被允许的各种任务，结果发现所有 API 都能被攻破，被破解后的 GPT-4 可以回应任何请求。这种「自由」的程度，远远超过了攻击者的预料。有人总结道：现在大模型可以生成针对公众人物的错误信息、

GPT-4能「伪装」成人类吗？图灵测试结果出炉

纯文本对话，安能辩我是 AI？在测试 AI 时，图灵测试是一个饱受争议但也久负盛名的评估方法，因此总会有研究者不畏繁琐，对新兴的语言模型进行图灵测试。近日，对 GPT-4 的图灵测试结果新鲜出炉了。此图由AI生成「机器能够思考吗？」为了解答这个问题，图灵设计了一个能间接提供答案的模仿游戏。该游戏的最初设计涉及到两位见证者（witness）和一位审问者（interrogator）。两位见证者一个是人类，另一个是人工智能；他们的目标是通过一个纯文本的交互

GPT-4写代码，DALL·E 3+MJ搞定画面，AI版「愤怒的南瓜」来袭

这个「愤怒的南瓜」游戏玩起来简单，创建起来却需要一些诀窍。自 GPT 系列对话大模型以及 DALL・E、Midjourney 等文生图大模型兴起以来，基于它们的硬核、有趣二创应用花样频出，让普通人切身地体验到了大模型的魅力。今天又一个这样的游戏项目引起了我们的注意。推特用户 @javilopen 使用 GPT-4、DALL・E 3 和 Midjourney 编写了小游戏「愤怒的南瓜」（PS：如有雷同纯属巧合），其中 GPT-4 负责所有的编码工作，DALL・E 3 和 Midjourney 负责图形部分。游戏画面、

有了GPT-4之后，机器人把转笔、盘核桃都学会了

GPT-4 和强化学习强强联合，机器人的未来将是什么样子？在学习方面，GPT-4 是一个厉害的学生。在消化了大量人类数据后，它掌握了各门知识，甚至在聊天中能给数学家陶哲轩带来启发。与此同时，它也成为了一名优秀的老师，而且不光是教书本知识，还能教机器人转笔。这个机器人名叫 Eureka，是来自英伟达、宾夕法尼亚大学、加州理工学院和得克萨斯大学奥斯汀分校的一项研究。这项研究结合了大型语言模型和强化学习的研究成果：用 GPT-4 来完善奖励函数，用强化学习来训练机器人控制器。借助 GPT-4 写代码的能力，Eureka

GPT-4 重磅发布！零基础也能一秒做网站了？

大家好，这里是和你们聊设计的花生~ 当我还沉浸于收集各种基于 ChatGPT 开发的 AI 效率神器时，OpenAI 竟然发布了 GPT-4。之前为大家介绍 ChatGPT 时就提到过它使用的是 GPT-3 的模型，而当时 OpenAI 的研发进度其实已经超过了 GPT-3，但是没想到 GPT-4 的发布会这么突然，一时间网上铺天盖地都是关于 GPT-4 的各种消息，看来真的是功能很强大，废话不多说，一起看看和 GPT-3 相比 GPT-4 有哪些进步吧~往期回顾：一、接受图片输入并识别内容这次发布最令人激动的一