o1不是唯一路径!MIT新研究:在测试时训练,模型推理能力最高升至5.8倍
o1不是通向大模型推理的唯一路径! MIT的新研究发现,在测试时对大模型进行训练,可以让推理水平大幅提升。 在挑战超难的ARC任务时,准确率最高可提升至原来的5.83倍。- 968
- 0
OpenAI o1太贵?那就自己做一个!纯提示方法让普通LLM进化出复杂推理能力
九月份,OpenAI o1正式登场。 作为新一代的老大哥,o1系列专注于复杂的推理任务,一经推出也是直接屠榜了大模型竞技场。 图片在下面这些难度较大的数学、编码、科学等任务中,o1不仅比GPT-4o强上一大截,甚至比人类专家还要凶猛。- 968
- 0
OpenAI的o1是万金油吗?专家为思维链“泼冷水”!研究发现:这三种任务不适合让AI“想太多”,o1准确率直降36.3%!
出品 | 51CTO技术栈(微信号:blog51cto)别想太多! 这句劝解有一定道理,在很多问题上过度思考反而会适得其反! AI是否也会这样呢?- 968
- 0
ChatGPT 幕后大佬、o1 推理模型作者 Luke Metz 官宣从 OpenAI 离职
就在刚刚,又一位元老级人物官宣离职 OpenAI 了。o1 推理模型贡献者之一 Luke Metz 发文称,「我即将离开 OpenAI,结束这段超过两年的奇妙旅程」。与此同时,Information 爆料称,此前出走的后训练团队负责人 Barret Zoph,现有了新的继任者 ——William (Liam) Fedus。他也是 o1 模型的七大负责人之一。值得一提的是,今天的两位主角此前都曾是谷…- 3
- 0
o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回
o1-preview 终于赢过了 mini 一次!亚利桑那州立大学的最新研究表明,o1-preview 在规划任务上,表现显著优于 o1-mini。相比于传统模型的优势更是碾压级别,在超难任务上的准确率比 Llama3.1-405B 高了 11 倍。要知道之前,OpenAI 自己人也发了一张图,显示 preview 论性能比不过满血版,论经济性又不如 mini,处于一个十分尴尬的地位。作者在推文中…- 4
- 0
OpenAI o1 在医学领域的初步研究,我们离 AI 医生更近了吗?
编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力,突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出,成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好,但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内,例如知识、推理或安全,这使得在复杂的医学任务中对这些模型进行全面…- 12
- 0
OpenAI o1 AI 模型 PlanBench 规划能力实测:准确率 97.8%,远超 LLaMA 3.1 405B 创造的 62.6% 纪录
来自亚利桑那州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 个来自 Blocksworld 领域的任务,其中积木必须按照特定顺序堆叠。OpenAI o1 模型成绩在 Blo…- 19
- 0
OpenAI 首款具备“推理”能力模型 o1 现已向企业 / 教育用户开放,每周最多使用 50 次
OpenAI 公司旗下首款具备“推理”能力的模型 o1 和 o1-mini 现已向企业版(Enterprise)和教育版(Edu)用户开放访问权限,用户每周最多可输入 50 条消息。据介绍,OpenAI o1 系列模型具有更高的理解能力,与传统模型不同,o1 系列模型在回答问题之前会进行深度思考,生成内在的思维链后再给出答案,因此系列模型能够处理比之前模型更复杂的任务,特别擅长解决科学、编程和数学…- 12
- 0
OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜:数学能力碾压 Claude 和谷歌 Gemini 模型,o1-mini 并列第一
o1 模型发布 1 周,lmsys 的 6k 投票就将 o1-preview 送上了排行榜榜首。同时,为了满足大家对模型「IOI 金牌水平」的好奇心,OpenAI 放出了 o1 测评时提交的所有代码。万众瞩目的最新模型 OpenAI o1,终于迎来了 lmsys 竞技场的测评结果。不出意外,o1-preview 在各种领域绝对登顶,超过了最新版的 GPT-4o,在数学、困难提示和编码领域表现出色;…- 21
- 0
OpenAI 再成“榜一大哥”:o1-preview AI 模型更轻松驾驭数学、编程等任务
科技媒体 The Decoder 昨日(9 月 19 日)发布博文,报道称在聊天机器人竞技场(Chatbot Arena)上,OpenAI 的新人工智能模型 o1-preview 和 o1-mini 问鼎榜首。聊天机器人竞技场简介聊天机器人竞技场是一个比较人工智能模型的平台,它利用 6000 多个社区评分对新的 OpenAI 系统进行了评估。结果结果显示,o1-preview 和 o1-mini …- 16
- 0
阿尔特曼称 o1 仅仅是“推理模型的 GPT-2”,黄仁勋表示“给你加速 50 倍”
AI 界最有影响力的两个人,同时出现在一场活动:OpenAI CEO 阿尔特曼,暗示了 o1 满血版将在接下来几个月发布。英伟达创始人黄仁勋,则表示新一代 Blackwell 架构 GPU 能给 o1 推理提速 50 倍。阿尔特曼把 o1 在推理模型里的地位比作语言模型中的 GPT-2 阶段。几年后人们将看到“推理模型的 GPT-4”,不过最近几个月就会有重大改进,新范式的进步曲线非常陡峭。L2“…- 15
- 0
陶哲轩提前实测满血版 OpenAI o1:能当研究生使唤
原来早在 8 月份,陶哲轩就已经用上了 OpenAI o1。还是现在大家都用不上的满血版本(眼泪不争气地从嘴角流出来)。提前批大佬是怎么玩最新天花板的呢?他向 o1 模型提出一个措辞模糊的数学问题,发现它竟然能成功识别出克莱姆定理。而且答案是“完全令人满意的”那种。当然,陶哲轩还做了一些其它测试,测下来总体体验就是:比以前的模型更牛,多堆点提示词表现还不错,但仍然会犯不小的错误,也没有产生啥自己的…- 13
- 0
OpenAI o1 非 GPT-4o 直接进化,在成本与性能上妥协
9 月 14 日消息,OpenAI 已经推出了新模型 OpenAI o1 的两大变体 ——o1-preview 与 o1-mini,这两款模型都有许多值得深入探讨的内容。人工智能专家西蒙・威利森(Simon Willison)专门发文,深入剖析了这些新模型背后的设计理念与实现细节,揭示了它们在技术上的独特优势与不足。威利森表示,o1 并不是简单的 GPT-4o 直接升级版,而是在强化“推理”能力的…- 18
- 0
o1 模型完整思维链成 OpenAI 头号禁忌,问多了等着封号吧
警告!不要在 ChatGPT 里问最新 o1 模型是怎么思考的 ——只要尝试几次,OpenAI 就会发邮件威胁撤销你的使用资格。请停止此活动,确保您使用 ChatGPT 时符合我们的使用条款。违反此条款的行为可能导致失去 OpenAI o1 访问权限。大模型新范式 o1 横空出世不到 24 小时,就已经有不少用户反馈收到这封警告邮件,引起众人不满。有人反馈只要提示词里带“reasoning tra…- 20
- 0
OpenAI大秀肌肉,一口气放出10个新模型Demo,全球网友玩疯了
AI好好用报道编辑:杨文9.11和9.8哪个大还是答不对。9 月 13 日凌晨,OpenAI 又搞了个大新闻 ——推出 o1 系列模型,也就是江湖流传已久的「草莓」。这款模型到底厉害在哪,能让朋友圈刷了屏?这么说吧,它不需要专门训练,就能直接拿下数学奥赛金牌,甚至可以在博士级别的科学问答环节上超越人类专家。(查看详情,请移步:刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限)不过,…- 3
- 0
因类人通用推理、可辅助制作生物武器等因素,OpenAI o1 AI 模型归类为“中等风险”
科技媒体 The Decoder 昨日(9 月 13 日)发布博文,报道称在 OpenAI 自家的“防备框架”(Preparedness Framework)下,将最新发布的 o1 AI 模型归类为“中等风险”(medium risk)。防备框架简介AI在线曾于 2023 年 12 月报道,OpenAI 成立了新的“防备”(Preparedness)团队,并提出“防备框架”指导方针。防备团队将反复…- 5
- 0
o1
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!