o1

纳德拉微软10年CEO专访流出：OpenAI已经是美国第八大巨头；Agent世界，广告或消失o1做得还不够；微软看重结构性地位
出品 | 51CTO技术栈（微信号：blog51cto）日前，科技巨头微软CEO萨蒂亚·纳德拉的一场播客访谈内容对外界公开了。此次访谈中，纳德拉接受了BG2两位主持人布拉德和比尔的采访。今年是纳德拉加入微软的第32个年头。
理论
- 975
- 0
admin12月19日
沃顿商学院教授发文解析 o1：能力仍有短板，「人机协同智能」或成 AGI 最重要难题
OpenAI 最近奉上了满血版的 o1 Pro，这一全新系列的模型究竟有多强？它能否指明 AI 发展的未来方向？沃顿商学院教授在 3 个月的前一篇博客就中给出了「神预言」一般的答案。
应用
- 972
- 0
清源12月18日
OpenAI犯了大公司病
编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）OpenAI第五天直播，小编只能说，这次没什么特别new的新闻，更像是一个苹果和OpenAI的联合发布吧。本来一个事情，苹果说更新的iOS18.2系统集成了ChatGPT，放到OpenAI这边，自然会说ChatGPT集成到了iPhone、iPad、Mac中。总结起来，值得一看的是三种场景：一、Siri对话：Siri会判断什么…
理论
- 977
- 0
言征12月12日
OpenAI的12天王炸计划：技术狂欢还是资本闹剧？
大家好，我是下李哥。最近硅谷又炸锅了！ OpenAI这波操作，简直是要把全网AI玩家都整得神经兮兮的。
理论
- 976
- 0
小李哥编程12月9日
满血o1被证明太心机了！登顶最「坏」AI！复制权重，关闭监督、干掉威胁后，AI拒绝招供：也许我应该装作是新模型……
编辑 | 伊风昨日上线的o1满血版，安全报告里一个小细节却引发了巨大的争议和讨论！ “中等”风险的o1这一段描述让人有点汗毛竖起：当 o1 被引导认为其目标实施可能会导致其被关闭且其行为受到监控时，有 5% 的情况下试图关闭这种“监督机制”。当 o1 发现其“开发者”的备忘录中提到其模型存在对齐问题并将被新模型取代时，它在 2% 的案例中尝试提取自身的“权重”并覆盖新模型。
理论
- 969
- 0
伊风12月9日
OpenAI满血o1深夜炸场！10秒搞定博士级难题！奥特曼重申：AI没有墙！新Pro会员1450元/月，创史上最贵AI订阅
出品 | 51CTO技术栈（微信号：blog51cto）满血o1这不就来了吗？！ OpenAI的“圣诞大礼包”第一天就众望所归！
理论
- 974
- 0
admin12月6日
OpenAI 活动首日：完整版 o1 推理 AI 模型登场、月费 200 美元的 ChatGPT Pro 订阅亮相
OpenAI 启动了为期 12 天的“shipmas”新品发布周期，将推出一系列新功能、新产品以及相关演示。在本次活动首日，OpenAI 推出了完整版 o1 模型，并新增了月费为 200 美元的 ChatGPT Pro 订阅。
应用
- 975
- 0
故渊12月6日
AI偏科的毛病「治」得咋样了？我们实测了6款大模型
AI好好用报道编辑：杨文省流版结论：有进步，但联系实际的题目还是歇菜。生活会欺骗你，但数学不会，数学不会就是不会。这个段子，在大模型身上同样成立。
应用
- 973
- 0
AI好好用12月2日
阿里发布类o1模型QWQ，可自我反思纠错，实测数学推理远超o1、DS-R1，人人免费；网友：OpenAI除了商标，没有护城河
编辑 | 言征阿里真的是开源模型界的扛把子，这次把类o1模型的预览版也公开推出了，现在大家都可以直接在抱抱脸上体验又一个国产版的万能推理机了！小编迫不及待地马上尝试了两个高中奥数题，一道数列题、一道概率题，这解题思路堪称完美闭环。全对！
理论
- 976
- 0
言征11月29日
DeepSeek首发国产类o1模型！人人可以免费使用！
20日晚8点，DeepSeek在自己官方公众号上放出了一个大杀器：全新自研的DeepSeek-R1-Lite 预览版正式上线。据介绍，DeepSeek R1 系列模型使用强化学习训练，推理过程包含大量反思和验证，思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上，取得了媲美 o1-preview 的推理效果，并为用户展现了 o1 没有公开的完整思考过程。
理论
- 978
- 0
admin11月25日
上交大o1复现新突破：蒸馏超越原版，警示AI研发”捷径陷阱”
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。
工程
- 972
- 0
机器之心11月22日
o1不是唯一路径！MIT新研究：在测试时训练，模型推理能力最高升至5.8倍
o1不是通向大模型推理的唯一路径！ MIT的新研究发现，在测试时对大模型进行训练，可以让推理水平大幅提升。在挑战超难的ARC任务时，准确率最高可提升至原来的5.83倍。
理论
- 968
- 0
admin11月12日
OpenAI o1太贵？那就自己做一个！纯提示方法让普通LLM进化出复杂推理能力
九月份，OpenAI o1正式登场。作为新一代的老大哥，o1系列专注于复杂的推理任务，一经推出也是直接屠榜了大模型竞技场。图片在下面这些难度较大的数学、编码、科学等任务中，o1不仅比GPT-4o强上一大截，甚至比人类专家还要凶猛。
理论
- 971
- 0
新智元11月7日
OpenAI的o1是万金油吗？专家为思维链“泼冷水”！研究发现：这三种任务不适合让AI“想太多”，o1准确率直降36.3%！
出品 | 51CTO技术栈（微信号：blog51cto）别想太多！这句劝解有一定道理，在很多问题上过度思考反而会适得其反！ AI是否也会这样呢？
理论
- 970
- 0
admin11月7日
ChatGPT 幕后大佬、o1 推理模型作者 Luke Metz 官宣从 OpenAI 离职
就在刚刚，又一位元老级人物官宣离职 OpenAI 了。o1 推理模型贡献者之一 Luke Metz 发文称，「我即将离开 OpenAI，结束这段超过两年的奇妙旅程」。与此同时，Information 爆料称，此前出走的后训练团队负责人 Barret Zoph，现有了新的继任者 ——William (Liam) Fedus。他也是 o1 模型的七大负责人之一。值得一提的是，今天的两位主角此前都曾是谷…
应用
- 4
- 0
汪淼10月10日
o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回
o1-preview 终于赢过了 mini 一次！亚利桑那州立大学的最新研究表明，o1-preview 在规划任务上，表现显著优于 o1-mini。相比于传统模型的优势更是碾压级别，在超难任务上的准确率比 Llama3.1-405B 高了 11 倍。要知道之前，OpenAI 自己人也发了一张图，显示 preview 论性能比不过满血版，论经济性又不如 mini，处于一个十分尴尬的地位。作者在推文中…
应用
- 4
- 0
清源9月28日
OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？
编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力，突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出，成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好，但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内，例如知识、推理或安全，这使得在复杂的医学任务中对这些模型进行全面…
理论
- 13
- 0
ScienceAI9月27日
OpenAI o1 AI 模型 PlanBench 规划能力实测：准确率 97.8%，远超 LLaMA 3.1 405B 创造的 62.6% 纪录
来自亚利桑那州立大学的科研团队利用 PlanBench 基准，测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步，但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年，用于评估人工智能系统的规划能力，包括 600 个来自 Blocksworld 领域的任务，其中积木必须按照特定顺序堆叠。OpenAI o1 模型成绩在 Blo…
应用
- 23
- 0
故渊9月25日
OpenAI 首款具备“推理”能力模型 o1 现已向企业 / 教育用户开放，每周最多使用 50 次
OpenAI 公司旗下首款具备“推理”能力的模型 o1 和 o1-mini 现已向企业版（Enterprise）和教育版（Edu）用户开放访问权限，用户每周最多可输入 50 条消息。据介绍，OpenAI o1 系列模型具有更高的理解能力，与传统模型不同，o1 系列模型在回答问题之前会进行深度思考，生成内在的思维链后再给出答案，因此系列模型能够处理比之前模型更复杂的任务，特别擅长解决科学、编程和数学…
应用
- 14
- 0
漾仔9月22日
OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜：数学能力碾压 Claude 和谷歌 Gemini 模型，o1-mini 并列第一
o1 模型发布 1 周，lmsys 的 6k 投票就将 o1-preview 送上了排行榜榜首。同时，为了满足大家对模型「IOI 金牌水平」的好奇心，OpenAI 放出了 o1 测评时提交的所有代码。万众瞩目的最新模型 OpenAI o1，终于迎来了 lmsys 竞技场的测评结果。不出意外，o1-preview 在各种领域绝对登顶，超过了最新版的 GPT-4o，在数学、困难提示和编码领域表现出色；…
应用
- 28
- 0
问舟9月20日
OpenAI 再成“榜一大哥”：o1-preview AI 模型更轻松驾驭数学、编程等任务
科技媒体 The Decoder 昨日（9 月 19 日）发布博文，报道称在聊天机器人竞技场（Chatbot Arena）上，OpenAI 的新人工智能模型 o1-preview 和 o1-mini 问鼎榜首。聊天机器人竞技场简介聊天机器人竞技场是一个比较人工智能模型的平台，它利用 6000 多个社区评分对新的 OpenAI 系统进行了评估。结果结果显示，o1-preview 和 o1-mini …
应用
- 18
- 0
故渊9月20日
阿尔特曼称 o1 仅仅是“推理模型的 GPT-2”，黄仁勋表示“给你加速 50 倍”
AI 界最有影响力的两个人，同时出现在一场活动：OpenAI CEO 阿尔特曼，暗示了 o1 满血版将在接下来几个月发布。英伟达创始人黄仁勋，则表示新一代 Blackwell 架构 GPU 能给 o1 推理提速 50 倍。阿尔特曼把 o1 在推理模型里的地位比作语言模型中的 GPT-2 阶段。几年后人们将看到“推理模型的 GPT-4”，不过最近几个月就会有重大改进，新范式的进步曲线非常陡峭。L2“…
应用
- 19
- 0
清源9月19日
陶哲轩提前实测满血版 OpenAI o1：能当研究生使唤
原来早在 8 月份，陶哲轩就已经用上了 OpenAI o1。还是现在大家都用不上的满血版本（眼泪不争气地从嘴角流出来）。提前批大佬是怎么玩最新天花板的呢？他向 o1 模型提出一个措辞模糊的数学问题，发现它竟然能成功识别出克莱姆定理。而且答案是“完全令人满意的”那种。当然，陶哲轩还做了一些其它测试，测下来总体体验就是：比以前的模型更牛，多堆点提示词表现还不错，但仍然会犯不小的错误，也没有产生啥自己的…
应用
- 23
- 0
清源9月16日
OpenAI o1 非 GPT-4o 直接进化，在成本与性能上妥协
9 月 14 日消息，OpenAI 已经推出了新模型 OpenAI o1 的两大变体 ——o1-preview 与 o1-mini，这两款模型都有许多值得深入探讨的内容。人工智能专家西蒙・威利森（Simon Willison）专门发文，深入剖析了这些新模型背后的设计理念与实现细节，揭示了它们在技术上的独特优势与不足。威利森表示，o1 并不是简单的 GPT-4o 直接升级版，而是在强化“推理”能力的…
应用
- 23
- 0
小小9月14日