o1

斯坦福揭秘 o1-preview 软肋:数学竞赛题稍作修改,准确率骤降 30%

斯坦福大学最近的一项研究发现,尽管 o1-preview 在数学、代码等领域能力逆天,但只要对数学竞赛的题目稍修改,模型解答的准确率竟会立刻下降 30%。

OpenAI o1 推理模型免费用,微软 Copilot 开放“深度思考”AI 功能

Microsoft AI 公司首席执行官穆斯塔法・苏莱曼(Mustafa Suleyman)昨日(1 月 30 日)在 X 平台发布推文,宣布所有 Microsoft Copilot 用户现在都可以免费使用 OpenAI 的 o1 推理模型。

有道子曰推理模型“子曰-o1”发布即开源,14B小参数复现OpenAI o1强推理效果

2025开年,AI行业掀起大模型“推理潮”,自OpenAI发布o1后,各式推理模型不断涌现,模型的高阶推理能力迎来爆发增强,其应用价值也愈发获得业界的广泛关注。 1月22日,网易有道正式推出国内首个输出分步式讲解的推理模型“子曰-o1”。 作为14B轻量级单模型,子曰-o1支持在消费级显卡上进行部署,采用思维链技术,能够提供细致解题过程,以强逻辑和推理能力,实现更高的解题准确性,并提供中文逻辑推理。

o1不是聊天模型?24小时热度暴涨,奥特曼、Brockman在线围观

不要再将 o1 当做聊天模型了。 如何定位 o1 模型? 你是否常常将其当做一个聊天模型来使用。

别再把o1满血版当聊天模型了!SpaceX前工程师公开全新使用秘籍:从讨厌它到每天依赖它

苹果&SpaceX前工程师分享o1使用心得,奥特曼、Brockman都转发了。 划重点:o1已经不是聊天模型了,需要全新的使用方法。 奥特曼还跑去挖坟作者Ben Hylak数天前的“自我打脸”评论,称“观察o1的口碑变化、以及人们学习如何使用它很有趣”。

沃顿商学院教授发文解析 o1:能力仍有短板,「人机协同智能」或成 AGI 最重要难题

OpenAI 最近奉上了满血版的 o1 Pro,这一全新系列的模型究竟有多强?它能否指明 AI 发展的未来方向?沃顿商学院教授在 3 个月的前一篇博客就中给出了「神预言」一般的答案。

OpenAI的12天王炸计划:技术狂欢还是资本闹剧?

大家好,我是下李哥。 最近硅谷又炸锅了! OpenAI这波操作,简直是要把全网AI玩家都整得神经兮兮的。

满血o1被证明太心机了!登顶最「坏」AI!复制权重,关闭监督、干掉威胁后,AI拒绝招供:也许我应该装作是新模型……

编辑 | 伊风昨日上线的o1满血版,安全报告里一个小细节却引发了巨大的争议和讨论! “中等”风险的o1这一段描述让人有点汗毛竖起:当 o1 被引导认为其目标实施可能会导致其被关闭且其行为受到监控时,有 5% 的情况下试图关闭这种“监督机制”。 当 o1 发现其“开发者”的备忘录中提到其模型存在对齐问题并将被新模型取代时,它在 2% 的案例中尝试提取自身的“权重”并覆盖新模型。

OpenAI满血o1深夜炸场!10秒搞定博士级难题!奥特曼重申:AI没有墙!新Pro会员1450元/月,创史上最贵AI订阅

出品 | 51CTO技术栈(微信号:blog51cto)满血o1这不就来了吗? ! OpenAI的“圣诞大礼包”第一天就众望所归!

OpenAI 活动首日:完整版 o1 推理 AI 模型登场、月费 200 美元的 ChatGPT Pro 订阅亮相

OpenAI 启动了为期 12 天的“shipmas”新品发布周期,将推出一系列新功能、新产品以及相关演示。在本次活动首日,OpenAI 推出了完整版 o1 模型,并新增了月费为 200 美元的 ChatGPT Pro 订阅。

阿里发布类o1模型QWQ,可自我反思纠错,实测数学推理远超o1、DS-R1,人人免费;网友:OpenAI除了商标,没有护城河

编辑 | 言征阿里真的是开源模型界的扛把子,这次把类o1模型的预览版也公开推出了,现在大家都可以直接在抱抱脸上体验又一个国产版的万能推理机了! 小编迫不及待地马上尝试了两个高中奥数题,一道数列题、一道概率题,这解题思路堪称完美闭环。 全对!

DeepSeek首发国产类o1模型!人人可以免费使用!

20日晚8点,DeepSeek在自己官方公众号上放出了一个大杀器:全新自研的DeepSeek-R1-Lite 预览版正式上线。 据介绍,DeepSeek R1 系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。 该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,并为用户展现了 o1 没有公开的完整思考过程。

上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

o1不是唯一路径!MIT新研究:在测试时训练,模型推理能力最高升至5.8倍

o1不是通向大模型推理的唯一路径! MIT的新研究发现,在测试时对大模型进行训练,可以让推理水平大幅提升。 在挑战超难的ARC任务时,准确率最高可提升至原来的5.83倍。

OpenAI o1太贵?那就自己做一个!纯提示方法让普通LLM进化出复杂推理能力

九月份,OpenAI o1正式登场。 作为新一代的老大哥,o1系列专注于复杂的推理任务,一经推出也是直接屠榜了大模型竞技场。 图片在下面这些难度较大的数学、编码、科学等任务中,o1不仅比GPT-4o强上一大截,甚至比人类专家还要凶猛。

OpenAI的o1是万金油吗?专家为思维链“泼冷水”!研究发现:这三种任务不适合让AI“想太多”,o1准确率直降36.3%!

出品 | 51CTO技术栈(微信号:blog51cto)别想太多! 这句劝解有一定道理,在很多问题上过度思考反而会适得其反! AI是否也会这样呢?

ChatGPT 幕后大佬、o1 推理模型作者 Luke Metz 官宣从 OpenAI 离职

就在刚刚,又一位元老级人物官宣离职 OpenAI 了。o1 推理模型贡献者之一 Luke Metz 发文称,「我即将离开 OpenAI,结束这段超过两年的奇妙旅程」。与此同时,Information 爆料称,此前出走的后训练团队负责人 Barret Zoph,现有了新的继任者 ——William (Liam) Fedus。他也是 o1 模型的七大负责人之一。值得一提的是,今天的两位主角此前都曾是谷歌的研究员;在来到 OpenAI 之后,共同参与了 ChatGPT、GPT-4 和 o1 的研发。o1 七大 Leade

o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回

o1-preview 终于赢过了 mini 一次!亚利桑那州立大学的最新研究表明,o1-preview 在规划任务上,表现显著优于 o1-mini。相比于传统模型的优势更是碾压级别,在超难任务上的准确率比 Llama3.1-405B 高了 11 倍。要知道之前,OpenAI 自己人也发了一张图,显示 preview 论性能比不过满血版,论经济性又不如 mini,处于一个十分尴尬的地位。作者在推文中表示,尽管存在可保证性和成本问题,但仅针对 CoT 而言,o1 已经超越了大模型的“近似检索”性质,提升到了“近似推理”