GPT-4o - AI在线

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

GPT-4o仅得分64.5，其余模型均未及格！全面、细粒度评估模型多模态长文档理解能力的评测集来了～名为LongDocURL，集成了长文档理解、数值推理和跨元素定位三个主任务，并包含20个细分子任务。 LongDocURL主打多模态、长上下文，专注于篇幅在50～150页的英文文档，平均页数和文档标记数分别为85.6和43622.6。

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

一夜之间，来自中国的大模型刷屏全网。 DeepSeek-V3，一个拥有671B参数的MoE模型，吞吐量每秒高达60 token，比上一代V2直接飙升3倍。在多项基准测试中，V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。

豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

豆包的“眼睛”升级了，现在让它看一眼APP截图，就能直接给你生成代码！话不多说，我们直接给它上一个难度。例如我们先随机截取一张网站的图片：再来到火山方舟的大模型广场，pick一下最新的Doubao-vision-pro-32k版本：（PS：该模型也可以在豆包APP中体验）然后把刚才的截图“喂”给豆包，并附上一句简单的Prompt：帮我写代码，克隆这个APP。

12个大模型攒局玩“大富翁”：Claude3.5爱合作，GPT-4o最“自私”｜谷歌DeepMind研究

给大模型智能体组一桌“大富翁”，他们会选择合作还是相互拆台？实验表明，不同的模型在这件事上喜好也不一样，比如基于Claude 3.5 Sonnet的智能体，就会表现出极强的合作意识。而GPT-4o则是主打一个“自私”，只考虑自己的短期利益。

亚马逊祭出地表最强全家桶，多模态Nova却败给Claude 3.5！

就在刚刚，亚马逊推出了号称最强大的多模态模型Nova系列。在多项基准测试中，最强的Nova Pro成功超越了GPT-4o，仅次于Gemini 1.5 Pro、Claude 3.5 Sonnet。相较之下，Nova Lite和Nova Micro，就要比同级竞品差上不少了。

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

太卷了，大模型迭代开始以「周」为单位了吗？一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的胜利十分振奋人心。

终于来了！OpenAI开放GPT-4o高级语音，还用中文说「对不起」

这项高级语音功能，大家可是等了好久。谷歌又被 OpenAI 截胡了。前脚谷歌刚刚升级完两款模型 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002，后脚奥特曼就直接宣布 GPT-4o 今天起正式开放。「高级语音功能今天推出！（将在本周内完成），希望您的等待值得。」奥特曼表示道，最后还不忘加一个委屈、小桃心的表情。这次，OpenAI 的高级语音功能将向所有的 Plus 和 Team 用户推出。但免费用户是体验不了了，因为 OpenAI 暂时没有这个计划。据了解，Plus 用户每月需支付

ChatGPT的高级语音模式终于上线了：中文一开口，就暴露了「歪果仁」身份

OpenAI 的「Her」终于向部分人群开放了。今年 5 月，OpenAI 在「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App，并展示了一系列新能力。现在，OpenAI 宣布向一小部分 ChatGPT Plus 用户开放 ChatGPT 的高级语音模式，让用户首次获得 GPT-4o 的超现实音频响应。这部分用户将在 ChatGPT 应用程序中收到提醒，并收到一封电子邮件，其中包含有关如何使用该应用程序的说明。「自从我们首次演示先进的语音模式以来，我们一直致力于加强语音对话的安全性和质量，准备

国内首个！商汤科技发布“日日新5o”，实时多模态流式交互对标GPT-4o

2024 年 7 月 5 日，上海 ——2024 世界人工智能大会暨人工智能全球治理高级别会议（WAIC 2024）战略合作伙伴商汤科技召开 “大爱无疆・向新力” 人工智能论坛，发布国内首个所见即所得模型 “日日新 5o”，交互体验对标 GPT-4o，实现全新 AI 交互模式。通过整合跨模态信息，基于声音、文本、图像和视频等多种形式，国内首个所见即所得模型 “日日新 5o” 带来一种全新的 AI 交互模式，即实时的流式多模态交互。现场也为大家展示了这种创新交互模式 ——工作人员刚开始仅是和 “日日新 5o” 打个招

大模型的高考数学成绩单：及格已经非常好了

让考生头皮发麻的高考数学，可难倒了顶尖 AI 大模型。一年一度的高考即将落幕，衷心希望各位考生都超常发挥，考出满意的好成绩！！和往年一样，除了让 AI 大模型写写高考作文，我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平（让众多考生头皮发麻）的高考数学考试（新课标 Ⅰ 卷），其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应（百川 4）以及通义千问 2.5。先来瞧一瞧这份「大模型成绩单」：令人惊讶的是，在这次模拟考试中，大模型（产品）的表现并未达到预期，甚至出现了几乎全部不及格

寡姐怒了，GPT-4o系统配音强行模仿，OpenAI回应删除

GPT-4o 其中一个声音是不是在模仿斯嘉丽・约翰逊，大家不妨听一下。GPT-4o 的发布，让很多人联想到科幻爱情电影《Her》中的类似情景，影片讲述了主人公西奥多 —— 一位信件撰写人与人工智能系统 OS1 萨曼莎的爱情故事。剧中给萨曼莎配音的著名影星斯嘉丽・约翰逊拥有迷人的声线，更是给萨曼莎增加了人类情感。电影《Her》中的片段。斯嘉丽・约翰逊在其他电影中的剧照。此前，OpenAI CEO Altma

从人机交互角度，聊聊最近爆火的ChatGPT-4o

近日 ChatGPT-4o 的发布会应该是未来几天 AI 圈子最有热度的话题了，其中几条更新其实可以从人机交互的角度解读一下。首先我们还是先来看看 GPT-4o 更新的主要内容（只关注交互角度解读可跳过）：多模态交互能力：ChatGPT 4.0 支持图像和文本输入，并能输出文本，具备多模态交互的能力。这意味着它可以理解图像内容，并生成字幕、分类和分析等操作。自然语言理解能力提升：在自然语言理解方面有显著提升，这使得 ChatGPT 4.0 能够更好地理解用户的输入，并根据用户的语境提供更准确的回答。上下文长度增

18个月，OpenAI这支团队搞出了GPT-4o

奥特曼：如果没有他（Prafulla Dhariwal）的远见、才华、信念和决心，就不会有 GPT-4o。「GPT-4o 的诞生离不开 @prafdhar 的远见、才华、信念和长期以来的坚定决心。正是这些努力（以及许多其他人的工作）促成了我希望会成为计算机使用方式革命的成果。」在 OpenAI 发布新一代旗舰生成模型 GPT-4o 后的两天，OpenAI CEO 奥特曼对参与该项目的其中一位负责人评价道。紧随其后，联合创始人 Greg Brockman 表示：「GPT-4o 是整个团队努力的结果。特别要感谢 @pr

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

大家好，这里是和你们一起探索 AI 的花生。5 月 14 日凌晨 OpenAI 举办了首次「春季新品发布会」，会上 OpenAI 首席技术官 Mira Murati 从 3 方面介绍了此次更新升级的要点，并实时演示了 OpenAI 最新的旗舰模型 GPT-4o 相关功能，展示了其强大的实时多模态交互性能，今天我们就一起来看看此次发布会的具体内容。OpenAI 首席技术官 Mira Murati 在主持 OpenAI 春季新品发布会一、最新旗舰模型 GPT-4o 此次发布会最大的亮点就是新旗舰模型 GPT-4o 的

免费GPT-4o来袭，音频视觉文本实现「大一统」

作者 | 赖文昕今天凌晨，即北京时间5月14日1点整，OpenAI 召开了首场春季发布会，CTO Mira Murati 在台上和团队用短短不到30分钟的时间，揭开了最新旗舰模型 GPT-4o 的神秘面纱，以及基于 GPT-4o 的 ChatGPT，均为免费使用。此前，有传言称 OpenAI 将推出 AI 搜索引擎，旨在与谷歌明天举办的 I/O 开发者大会一较高下，一度引发了公众的热烈讨论。不过 Sam Altman 随后在 X（原推特）上表示，要展示的并非 GPT-5 或搜索引擎，而是一些令人期待的创新成果，他本人对此充满期待，认为其像魔法一样神奇。

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

ChatGPT 问世才 17 个月，OpenAI 就拿出了科幻电影里的超级 AI，而且完全免费，人人可用。太震撼了！当各家科技公司还在追赶大模型多模态能力，把总结文本、P 图等功能放进手机里的时候，遥遥领先的 OpenAI 直接开了大招，发布的产品连自家 CEO 奥特曼都惊叹：就像电影里一样。5 月 14 日凌晨，OpenAI 在首次「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App，并展示了一系列新能力。这一次，技术颠覆了产品形态，OpenAI 用行动给全世界的科技公司上了一课。今天的主持人