GPT

微调 GPT-4o AI 模型新维度，OpenAI 开放图片视觉微调功能

OpenAI 公司昨日（10 月 1 日）发布博文，宣布为 GPT-4o 模型引入视觉微调（vision fine-tuning）功能，除了文本之外还支持微调图像。OpenAI 表示自开放微调 GPT-4o 以来，数十万开发者使用数据集（仅文本）微调了该模型，从而提高了驾驭某些特定任务的能力。OpenAI 在博文中展示了一些合作伙伴的微调案例：Garb ：通过视觉微调，提升了交通标志定位准确性 20% 和限速标志定位 13%。Automat：成功率从 16.60% 提升至 61.67%，并在信息提取任务中 F1 分

10/2/2024 2:00:13 PM

故渊

《Python机器学习》作者科普长文：从头构建类GPT文本分类器，代码开源

学起来吧！近日，机器学习研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又分享了一篇长文，主题为《从头开始构建一个 GPT 风格的 LLM 分类器》。文章展示了如何将预训练的大型语言模型（LLM）转化为强大的文本分类器。AI在线对文章内容进行了不改变原意的编译、整理：为什么要关注分类呢？首先，针对分类任务，对预训练模型进行微调是一个简单有效的 LLM 知识入门方式。其次，文本分类有许多商业应用场景，比如：垃圾邮件检测、情感分析、客户反馈分类、主题分类等等。阅读完本文，你将找到以下

9/28/2024 2:24:00 PM

机器之心

实测字节豆包·视频生成模型：Sora画的饼被实现了......

但更多的网友则是期待字节的视频生成模型，因为早在去年11月，字节的项目Make Pixels Dance就展示字节具备了解决长AI视频中角色一致性难以保持的问题。所以我也看到很多外网网友的另一个问题“Where is ByteDacne?”。而就在9.24火山引擎AI创新巡展深圳站上，火山引擎一口气发布了个视频生成模型PixelDance和Seaweed模型。

9/27/2024 5:55:00 PM

林杰鑫

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力，突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出，成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好，但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内，例如知识、推理或安全，这使得在复杂的医学任务中对这些模型进行全面评估变得复杂。来自加州大学圣克鲁斯分校、爱丁堡大学和美国国立卫生研究院的研究人员评估了 OpenAI 的 o1 模型在医

9/27/2024 5:36:00 PM

ScienceAI

GPT-4o 能玩《黑神话：悟空》：精英怪胜率超人类，无强化学习纯大模型方案

AI 玩黑神话，第一个精英怪牯护院轻松拿捏啊。有方向感，视角也没有问题。躲闪劈棍很丝滑。甚至在打鸦香客和牯护院时，AI 的胜率已经超过人类。而且是完全使用大模型玩，没有使用强化学习。阿里巴巴的研究人员们提出了一个新型 VARP（视觉动作角色扮演）智能体框架。它能直接将游戏截图作为输入，通过视觉语言模型推理，最终生成 Python 代码形式的动作，以此来操作游戏。以玩《黑神话・悟空》为例，该智能体在 90% 简单和中等水平战斗场景中取胜。GPT-4o、Claude 3.5 都来迎战研究人员以《黑神话・悟空》为研究平台

9/22/2024 3:06:25 PM

汪淼

OpenAI 再成“榜一大哥”：o1-preview AI 模型更轻松驾驭数学、编程等任务

科技媒体 The Decoder 昨日（9 月 19 日）发布博文，报道称在聊天机器人竞技场（Chatbot Arena）上，OpenAI 的新人工智能模型 o1-preview 和 o1-mini 问鼎榜首。聊天机器人竞技场简介聊天机器人竞技场是一个比较人工智能模型的平台，它利用 6000 多个社区评分对新的 OpenAI 系统进行了评估。结果结果显示，o1-preview 和 o1-mini 尤其在数学任务、复杂提示和编程方面表现出色。Lmsys 提供的数学模型优势图表清楚地显示，o1-preview 和 o1

9/20/2024 10:29:14 AM

故渊

研究称生成式 AI 耗水量巨大：使用 GPT-4 生成 100 字文本需消耗 3 瓶水

据《华盛顿邮报》报道，美国加州大学河滨分校的一项新研究揭示了生成式 AI 的惊人环境成本，尤其是其对水资源的消耗。研究发现，即使只是生成文本，AI 也需要大量的水来冷却服务器。再加上其对电网的巨大压力，进一步凸显了 AI 发展的环境挑战。图源 Pexels研究指出，AI 的用水量因州和数据中心位置的不同而有所差异，但总体而言，水耗与电费成反比。AI在线注意到，得州的水耗最低，生成一封 100 字的电子邮件仅需 235 毫升水，而华盛顿则高达 1,408 毫升，相当于三瓶 16.9 盎司的矿泉水。此外，数据中心本身就

9/19/2024 9:00:16 PM

远洋

阿尔特曼称 o1 仅仅是“推理模型的 GPT-2”，黄仁勋表示“给你加速 50 倍”

AI 界最有影响力的两个人，同时出现在一场活动：OpenAI CEO 阿尔特曼，暗示了 o1 满血版将在接下来几个月发布。英伟达创始人黄仁勋，则表示新一代 Blackwell 架构 GPU 能给 o1 推理提速 50 倍。阿尔特曼把 o1 在推理模型里的地位比作语言模型中的 GPT-2 阶段。几年后人们将看到“推理模型的 GPT-4”，不过最近几个月就会有重大改进，新范式的进步曲线非常陡峭。L2“推理者”与 L1“聊天机器人”非常不同，大家还没找到该怎么用这些模型，我们也没决定该为 App 继续添加什么功能。不过最

9/19/2024 4:41:34 PM

清源

新代码暗示 OpenAI 本月 24 日推出 ChatGPT AI 高级语音模式

科技媒体 testingcatalog 昨日（9 月 18 日）发布博文，报道称 OpenAI 公司可能会在 9 月 24 日进一步推广 ChatGPT 的高级语音模式，甚至可能是直接正式发布。OpenAI 于今年 7 月宣布向一小部分 ChatGPT Plus 用户开放 ChatGPT 的高级语音模式，让用户首次获得 GPT-4o 的超现实音频响应。AI在线援引该媒体报道，OpenAI 公司已更新高级语音模式 FAQ 页面，在代码中被发现“hasSeenAdvancedVoice/2024-09-24”的字符串，

9/19/2024 9:08:32 AM

故渊

陶哲轩提前实测满血版 OpenAI o1：能当研究生使唤

原来早在 8 月份，陶哲轩就已经用上了 OpenAI o1。还是现在大家都用不上的满血版本（眼泪不争气地从嘴角流出来）。提前批大佬是怎么玩最新天花板的呢？他向 o1 模型提出一个措辞模糊的数学问题，发现它竟然能成功识别出克莱姆定理。而且答案是“完全令人满意的”那种。当然，陶哲轩还做了一些其它测试，测下来总体体验就是：比以前的模型更牛，多堆点提示词表现还不错，但仍然会犯不小的错误，也没有产生啥自己的思想。陶哲轩是这样形容的：这种感觉，就像给一个平庸无奇但又有点小能力的研究生提供建议。不过，这已经比以前的模型有所改进，

9/16/2024 6:51:12 PM

清源

o1 模型完整思维链成 OpenAI 头号禁忌，问多了等着封号吧

警告！不要在 ChatGPT 里问最新 o1 模型是怎么思考的 ——只要尝试几次，OpenAI 就会发邮件威胁撤销你的使用资格。请停止此活动，确保您使用 ChatGPT 时符合我们的使用条款。违反此条款的行为可能导致失去 OpenAI o1 访问权限。大模型新范式 o1 横空出世不到 24 小时，就已经有不少用户反馈收到这封警告邮件，引起众人不满。有人反馈只要提示词里带“reasoning trace”、“show your chain of thought”等关键词就会收到警告。甚至完全避免出现关键词，使用其他手

9/14/2024 12:50:33 PM

汪淼

OpenAI o1 模型登场：开启 AI 通用复杂推理新篇章，国际奥数正确率 83%

感谢OpenAI 传闻中的“草莓”（Strawberry）AI 模型现已面世，正式名称为“o1”，是该公司首款具备“推理”能力的模型。o1 和 o1-miniOpenAI 表示对该模型进行特殊训练，能够比人类更快地回答更复杂的问题。与之同时发布的还有 o1-mini，一个更小、成本更低的版本。OpenAI 表示 o1 模型的发布，是其迈向类人 AI 宏伟目标的关键一步。AI在线注：o1 模型目前处于“预览”阶段，官方强调该模型相关开发尚处于初期阶段，相比较 GPT-4o 模型，使用成本更高且速度更慢，但在编写代码和

9/13/2024 6:56:28 AM

故渊

刚刚，GPT-4o关键人物离职创业！曾在OpenAI最早提出构建「Her」

OpenAI 最早提出构建「Her」的那个人，刚刚宣布离职创业了。今年 5 月份，OpenAI 发布了震惊世界的 GPT-4o。这个模型可以跨越文本、视觉和音频，以一种非常自然的形式和人类语音对话，延迟低到与人类在对话中的响应时间相似。而且，它允许用户随时打断，并能感知和回应用户的情绪。因此，该模型发布后，很多人说科幻电影《Her》中的场景照进了现实。此次离职的 Alexis Conneau 就是 GPT-4o 项目的关键人物之一。离职前，他是 OpenAI 音频 AGI 研究负责人，也是 OpenAI 最早提出

9/12/2024 6:55:00 PM

机器之心

从零到AI高手：用OpenAI API极速打造智能应用！

像我之前也提到过，AI 的发展愈发迅猛这是无可置疑的，但很多人知道 AI 好，却不会引进实际的业务中去。无论是市面上常见的文本生成工具，还是智能 Copilot，这些应用都展示了 AI 的强大能力。面对这些新技术，许多设计师可能会好奇：如何才能将这些能力运用到自己的项目中？其实你能用且会用 AI 工具做端外提效已经超过 80%的人了，但如何将能力接入端内？实实在在的给项目提效，而非个人。有些底层逻辑你还是要懂的。 OpenAI 的 GPT 模型是当前自然语言处理领域的核心技术之一。它不仅功能强大，而且极具灵活性，能

9/9/2024 5:45:47 AM

小普

OpenAI 今年启动 GPT Next 计划：AI 性能百倍级跃升，Orion 有望接棒 GPT-4

OpenAI Japan 出席 KDDI 峰会，介绍了公司即将推出的下一代 AI 模型，并宣布将在 2024 年启动 GPT Next 计划，有望在 AI 功能上实现大幅飞跃。图源：itmediaOpenAI Japan 首席执行官长崎忠雄（Tadao Nagasaki）表示，虽然 GPT-3 和 GPT-4 的性能比较接近，但 GPT Next 预计会有更大的飞跃，性能将提高 100 倍。长崎忠雄于 2024 年 4 月成为 OpenAI Japan 的掌舵者，他在会上强调相比较传统软件，AI 技术正以指数级速度

9/4/2024 10:05:55 AM

故渊

OpenAI 的 GPT-4 变身考证能手：无额外训练通过日本理疗师考试，正确率 73.4%

一项新的同行评审研究表明，OpenAI 的 GPT-4 大语言模型无需任何额外训练，即可通过日本国家理疗考试。最新发表在《Cureus》杂志上的新研究，测试了 GPT-4 的文字和视觉技能。AI在线注：日本国家物理理疗师考试包括 160 道综合题和 40 道实践题，测试记忆、理解、应用、分析和评估能力。研究人员在 GPT-4 中输入了 1000 个问题，并将答案对比了官方解决方案。GPT-4 通过了所有五个测试部分，正确回答了 73.4% 的问题。不过，人工智能在处理技术性问题和包含图片或表格的问题时显得有些吃力。

8/31/2024 9:02:36 AM

故渊

用户反馈 Claude AI 聊天机器人愈发“慵懒”，官方回应未做调整

科技媒体 The Decoder 昨日（8 月 28 日）发布博文，报道称 Anthropic 公司旗下的 Clause AI 聊天机器人变得愈发“慵懒”了，不再像此前那样能干了。网友 NextgenAITrading 于 11 天前在 Reddit 社区发帖，帖子标题为《这绝不是你的幻觉！Claude 最近变得越来越懒了》，目前该帖子已收获 485 个赞，共有 290 条跟帖回复。网友称 Claude 很容易忘记任务，在基础编程方面也很吃力，最终导致其选择取消订阅。Anthropic 公司的亚历克斯・艾伯特（Al

8/29/2024 9:14:11 AM

故渊

安卓 / macOS 版 ChatGPT AI 应用现支持“@”，可无缝切换不同 GPT 模型

科技媒体 testingcatalog 昨日（8 月 28 日）发布博文，报道称安卓版和 macOS 版 ChatGPT 现支持 Mentions 功能，用户在聊天对话中使用“@”字符来调用不同的定制 GPT 模型。在安卓版 ChatGPT 应用中，用户输入“@”符号之后，会弹出一个窗口，让用户选择不同的 GPT，在保持聊天上下文的时候方便用户无缝切换。苹果 macOS 平台最新版 ChatGPT 也已上线该功能，但目前 iOS 平台 ChatGPT 仍未上线。AI在线注：Mentions 是 ChatGPT 的一

8/29/2024 7:39:57 AM

故渊

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练