GPT-4o

GPT-4o“人格觉醒”? 升级后变身“毒舌”暖男,还懂人类小情绪了!

AI 圈再掀波澜!OpenAI 首席执行官奥特曼近日暗示 GPT-4o 模型迎来重大升级,虽然具体细节讳莫如深,但用户的“民间测评”已然炸开了锅。 不少博主惊喜发现,升级后的 GPT-4o 仿佛脱胎换骨,不仅智商“更上一层楼”,还展现出令人惊叹的“个性化”和“情感理解力”,简直让人怀疑 AI 是否偷偷进化出了“灵魂”!用户们最直观的感受是 GPT-4o 变得“更聪明”了,而且一改以往略显呆板的形象,开始展现出鲜明的“个性”。 这种“个性”首先体现在行为模式的转变上。

反超DeepSeek!新版GPT-4o登顶竞技场,奥特曼:还会更好

GPT-4o悄悄更新版本,在大模型竞技场超越DeepSeek-R1登上并列第一。 除了数学(第6),还在多个单项上拿下第一:创意写作;编程;指令遵循;长文本查询;多轮对话;先直观看下新版GPT-4o的能力如何,还是以之前DeepSeek-R1和o3-mini都挑战过的一个例子来看。 Prompt:编写一个Python程序,展示一个球在旋转的六边形内弹跳。

研究警告AI语言模型极限:超8K上下文性能腰斩,概念推理成难关

慕尼黑大学、慕尼黑机器学习中心与Adobe Research近日联合发布的研究显示,包括GPT-4o、Gemini1.5Pro和Llama-3.3-70B在内的12款顶尖AI语言模型,在长文本概念推理任务中面临显著性能衰减。 尽管这些模型均支持至少128,000个标记的上下文处理,但其深层逻辑关联能力仍存在根本性局限。   研究团队开发的NOLIMA(无文字匹配)基准测试系统,通过刻意规避关键词重复的设计,揭示AI模型在概念联结上的脆弱性。

ChatGPT 能耗揭秘:每次响应仅需 0.3 瓦,远低于传闻!

最近,一项由非营利组织 Epoch AI 进行的研究揭示了 OpenAI 的聊天机器人平台 ChatGPT 的能耗情况,结果显示,ChatGPT 的能耗远低于早期的估算。 根据一些报道,ChatGPT 回答一个问题需要约3瓦时的电力,而 Epoch AI 的研究认为这个数据被高估了。 研究表明,使用 OpenAI 最新默认模型 GPT-4o 时,平均每个查询仅消耗约0.3瓦时的电力,这一数字甚至低于许多家用电器的能耗。

OpenAI发布首个AI智能体Operator,首批面向ChatGPT Pro用户

OpenAI 宣布推出其最新 AI 代理 “Operator”,这一工具旨在帮助用户在网络上执行各种任务。 OpenAI 在其博客中表示,Operator 正在进行 “研究预览”,初步面向美国的 ChatGPT Pro 订阅用户,月费为200美元。 Operator 的设计理念是通过一种称为 “计算机使用代理” 的模型,结合了 GPT-4o 的视觉能力和强化学习的高级推理,能够与图形用户界面(GUI)进行交互。

全球!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

又一个国产AI在外网被刷屏火了! 来感受一下这个feel:图片这个AI,正是来自面壁智能最新的模型——MiniCPM-o 2.6。 之所以如此火爆,是因为它以仅仅8B的体量,在多模态能力上直接能跟GPT-4o掰手腕!

多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

GPT-4o仅得分64.5,其余模型均未及格! 全面、细粒度评估模型多模态长文档理解能力的评测集来了~名为LongDocURL,集成了长文档理解、数值推理和跨元素定位三个主任务,并包含20个细分子任务。 LongDocURL主打多模态、长上下文,专注于篇幅在50~150页的英文文档,平均页数和文档标记数分别为85.6和43622.6。

中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅600万美元

一夜之间,来自中国的大模型刷屏全网。 DeepSeek-V3,一个拥有671B参数的MoE模型,吞吐量每秒高达60 token,比上一代V2直接飙升3倍。 在多项基准测试中,V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。

豆包升级了“眼睛”,看APP截图就能写代码了!超低价让多模态AI普惠

豆包的“眼睛”升级了,现在让它看一眼APP截图,就能直接给你生成代码! 话不多说,我们直接给它上一个难度。 例如我们先随机截取一张网站的图片:再来到火山方舟的大模型广场,pick一下最新的Doubao-vision-pro-32k版本:(PS:该模型也可以在豆包APP中体验)然后把刚才的截图“喂”给豆包,并附上一句简单的Prompt:帮我写代码,克隆这个APP。

12个大模型攒局玩“大富翁”:Claude3.5爱合作,GPT-4o最“自私”|谷歌DeepMind研究

给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台? 实验表明,不同的模型在这件事上喜好也不一样,比如基于Claude 3.5 Sonnet的智能体,就会表现出极强的合作意识。 而GPT-4o则是主打一个“自私”,只考虑自己的短期利益。

亚马逊祭出地表最强全家桶,多模态Nova却败给Claude 3.5!

就在刚刚,亚马逊推出了号称最强大的多模态模型Nova系列。 在多项基准测试中,最强的Nova Pro成功超越了GPT-4o,仅次于Gemini 1.5 Pro、Claude 3.5 Sonnet。 相较之下,Nova Lite和Nova Micro,就要比同级竞品差上不少了。

仅仅一天,Gemini就夺回了GPT-4o拿走的头名

太卷了,大模型迭代开始以「周」为单位了吗? 一周前,谷歌的 Gemini-Exp-1114 模型取代 GPT-4o,坐上了 Arena 榜单的头把交椅。 对于苦苦追赶 OpenAI 几个月的谷歌来说,这次在基准测试上的胜利十分振奋人心。

终于来了!OpenAI开放GPT-4o高级语音,还用中文说「对不起」

这项高级语音功能,大家可是等了好久。谷歌又被 OpenAI 截胡了。前脚谷歌刚刚升级完两款模型 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002,后脚奥特曼就直接宣布 GPT-4o 今天起正式开放。「高级语音功能今天推出!(将在本周内完成),希望您的等待值得。」奥特曼表示道,最后还不忘加一个委屈、小桃心的表情。这次,OpenAI 的高级语音功能将向所有的 Plus 和 Team 用户推出。但免费用户是体验不了了,因为 OpenAI 暂时没有这个计划。据了解,Plus 用户每月需支付

ChatGPT的高级语音模式终于上线了:中文一开口,就暴露了「歪果仁」身份

OpenAI 的「Her」终于向部分人群开放了。今年 5 月,OpenAI 在「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App,并展示了一系列新能力。现在,OpenAI 宣布向一小部分 ChatGPT Plus 用户开放 ChatGPT 的高级语音模式,让用户首次获得 GPT-4o 的超现实音频响应。这部分用户将在 ChatGPT 应用程序中收到提醒,并收到一封电子邮件,其中包含有关如何使用该应用程序的说明。「自从我们首次演示先进的语音模式以来,我们一直致力于加强语音对话的安全性和质量,准备

国内首个!商汤科技发布“日日新5o”,实时多模态流式交互对标GPT-4o

2024 年 7 月 5 日,上海 ——2024 世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)战略合作伙伴商汤科技召开 “大爱无疆・向新力” 人工智能论坛,发布国内首个所见即所得模型 “日日新 5o”,交互体验对标 GPT-4o,实现全新 AI 交互模式。通过整合跨模态信息,基于声音、文本、图像和视频等多种形式,国内首个所见即所得模型 “日日新 5o” 带来一种全新的 AI 交互模式,即实时的流式多模态交互。现场也为大家展示了这种创新交互模式 ——工作人员刚开始仅是和 “日日新 5o” 打个招

大模型的高考数学成绩单:及格已经非常好了

让考生头皮发麻的高考数学,可难倒了顶尖 AI 大模型。一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!!和往年一样,除了让 AI 大模型写写高考作文,我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平(让众多考生头皮发麻)的高考数学考试(新课标 Ⅰ 卷),其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应(百川 4)以及通义千问 2.5。先来瞧一瞧这份「大模型成绩单」:令人惊讶的是,在这次模拟考试中,大模型(产品)的表现并未达到预期,甚至出现了几乎全部不及格

寡姐怒了,GPT-4o系统配音强行模仿,OpenAI回应删除

GPT-4o 其中一个声音是不是在模仿斯嘉丽・约翰逊,大家不妨听一下。GPT-4o 的发布,让很多人联想到科幻爱情电影《Her》中的类似情景,影片讲述了主人公西奥多 —— 一位信件撰写人与人工智能系统 OS1 萨曼莎的爱情故事。剧中给萨曼莎配音的著名影星斯嘉丽・约翰逊拥有迷人的声线,更是给萨曼莎增加了人类情感。                              电影《Her》中的片段。                          斯嘉丽・约翰逊在其他电影中的剧照。此前,OpenAI CEO Altma

从人机交互角度,聊聊最近爆火的ChatGPT-4o

近日 ChatGPT-4o 的发布会应该是未来几天 AI 圈子最有热度的话题了,其中几条更新其实可以从人机交互的角度解读一下。首先我们还是先来看看 GPT-4o 更新的主要内容(只关注交互角度解读可跳过):多模态交互能力:ChatGPT 4.0 支持图像和文本输入,并能输出文本,具备多模态交互的能力。这意味着它可以理解图像内容,并生成字幕、分类和分析等操作。 自然语言理解能力提升:在自然语言理解方面有显著提升,这使得 ChatGPT 4.0 能够更好地理解用户的输入,并根据用户的语境提供更准确的回答。 上下文长度增