别再把o1满血版当聊天模型了！SpaceX前工程师公开全新使用秘籍：从讨厌它到每天依赖它

2025-01-13 11:48

苹果&SpaceX前工程师分享o1使用心得，奥特曼、Brockman都转发了。划重点：o1已经不是聊天模型了，需要全新的使用方法。奥特曼还跑去挖坟作者Ben Hylak数天前的“自我打脸”评论，称“观察o1的口碑变化、以及人们学习如何使用它很有趣”。

苹果&SpaceX前工程师分享o1使用心得，奥特曼、Brockman都转发了。

划重点：

o1已经不是聊天模型了，需要全新的使用方法。

奥特曼还跑去挖坟作者Ben Hylak数天前的“自我打脸”评论，称“观察o1的口碑变化、以及人们学习如何使用它很有趣”。

Ben Hylak曾任SpaceX软件工程师、苹果VisionOS人机交互设计师，目前在创业为AI产品提供分析服务。

具体来说，Ben在o1 pro推出满血$200/月版本的第一天就交钱了，整整测试了一天后得出结论：它真的很糟糕！

每次提问都要等待5分钟
会输出自相矛盾的建议
没有要求但总是会回复架构图+优势/劣势列表

Ben把糟糕的体验发在网上后，很多人表示同感。但有趣的是，也有人强烈反对。

他开始与持不同观点的讨论，然后意识到原来是自己的方法完全错了。

我还在把o1当聊天模型来用，但o1已经不是聊天模型了。

现在，Ben已经从讨厌o1，转变成了每天都在用它解决最重要的问题。

像对待新员工一样对待o1

如果说o1不是聊天模型了，那它现在是什么？

Ben认为它就像一个“报告生成器”。如果你给它足够的上下文，并告诉它你想要输出什么，它通常会一次性找到解决方案。

OpenAI官方其实给了一个简单的o1使用建议，但并不完善。

Ben的建议包括：

提供海量背景信息

不管你现在是怎么理解“海量”的，再乘以10倍。

当使用GPT-4o或Claude 3.5等聊天模型时，通常会从一个简单的问题和一些背景信息开始。如果模型需要更多背景信息，它通常会要求你继续提供。

这就是聊天模型的本质，从一来一回的交互中不断完善输出。

但o1只会从表面上回答你提出的问题，不会试图从你那里获取背景信息。所以需要反过来将尽可能多的上下文主动发给它。

即使只是问一个简单的代码工程问题，应该提供：

解释所有你尝试过但不起作用的方案
一份完整的数据库schemas
解释一下你的公司是做什么的，规模多大，定义内部术语

总而言之，就像对待新员工一样对待o1。

描述你想要什么，而不是指导它如何做

对于大多数聊天模型，我们都会告诉模型希望他如何回复模式，比如“扮演一位软件工程专家，请仔细思考”。

但在o1上有效的方法正相反，告诉它你需要什么，而不是指导它如何去做。

Ben把o1的提示词模板分成4部分：

目标放在最前面
详细指定输出格式
可以附加需要检查的注意事项
海量相关的背景信息

最后，o1的输出有一种学术/商业报告的风格。Ben认为太多的推理token让它很难摆脱这种风格

他曾试图让o1来完成这篇文章，但经过多次尝试，只能得到非常平淡的学生作业。

One More Thing

在奥特曼的转发推文中，有人套出了最新消息：

o3暂时还不会向用户开放，o3-mini会先推出，而且时间不远了。

o3-mini会先提供给Plus订阅用户使用，API的定价OpenAI内部还没确定，但不会很贵。

参考链接：[1]https://www.latent.space/p/o1-skill-issue。

[2]https://x.com/sama/status/1877814065088663763。

[3]https://x.com/gdb/status/1878489681702310392。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

天下武功唯快不破，但 OpenAI 不走寻常路，新出的 o1 系列宣告天下：我们更慢，但更强了。 o1 要花更多的时间思考问题，再做出反应，但在复杂推理层面直接窜了几个档位。在国际数学奥林匹克 (IMO) 资格考试中，GPT-4o 仅正确解决了 13% 的问题，而 o1 得分为 83%。

9/13/2024 3:50:00 PM

刘洁

满血o1被证明太心机了！登顶最「坏」AI！复制权重，关闭监督、干掉威胁后，AI拒绝招供：也许我应该装作是新模型……

编辑 | 伊风昨日上线的o1满血版，安全报告里一个小细节却引发了巨大的争议和讨论！ “中等”风险的o1这一段描述让人有点汗毛竖起：当 o1 被引导认为其目标实施可能会导致其被关闭且其行为受到监控时，有 5% 的情况下试图关闭这种“监督机制”。当 o1 发现其“开发者”的备忘录中提到其模型存在对齐问题并将被新模型取代时，它在 2% 的案例中尝试提取自身的“权重”并覆盖新模型。

12/9/2024 7:00:00 AM

伊风

OpenAI o1 pro 深评博士医学论文，震惊顶尖免疫学家

在圣诞马拉松的第一天，OpenAI 震撼发布了满血版 o1，它凭借超凡的数学、科学和编程能力迅速引起了全球关注。最近，世界顶尖免疫学家 Derya Unutmaz 与 o1 pro 合作，让它帮忙评析自己的论文，发现它反馈的深度远超预期，令他感到震撼。此外，o1 pro 还在解决人文研究问题上展现了卓越的能力。

12/29/2024 2:21:55 PM

远洋

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部