AI资讯列表 - AI在线

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

o1-preview 终于赢过了 mini 一次！亚利桑那州立大学的最新研究表明，o1-preview 在规划任务上，表现显著优于 o1-mini。相比于传统模型的优势更是碾压级别，在超难任务上的准确率比 Llama3.1-405B 高了 11 倍。要知道之前，OpenAI 自己人也发了一张图，显示 preview 论性能比不过满血版，论经济性又不如 mini，处于一个十分尴尬的地位。作者在推文中表示，尽管存在可保证性和成本问题，但仅针对 CoT 而言，o1 已经超越了大模型的“近似检索”性质，提升到了“近似推理”

三星预言 2025 年将掀起 AI 普及浪潮，重塑消费者日常生活方式

科技媒体 techradar 今天（9 月 28 日）发布博文，报道称三星 Galaxy AI 项目负责人 YoungJip Kim 表示：“2025 年将是 AI 普及元年，未来 AI 将出现在生活的每个角落”。Kim 在采访中表示：“消费者对于 AI 技术的期望不断拔高，而大多数科技公司都在这方面非常努力。AI 技术的蓬勃发展，将会进一步扩充聊天互动之外的方式，用更多元化的方式、更先进的技术变革我们的日常生活”。他举了例子说明即使是最普通的 AI 应用也能改变生活，如 AI 翻译功能消除了语言障碍。AI在线援引

苹果反水：OpenAI的1500亿「史上最大」融资轮，难了

有金主已经决定收手。在 OpenAI，高层变动正在成为一种传统。在不到两年的时间里，OpenAI 从一个 AI 圈内领先的实验室，发展成为一家全球知名的企业。在首席执行官山姆・奥特曼（Sam Altman）被罢免并迅速复职不到一年后，今年 9 月，三位高层领导突然宣布辞职。一个摆在台面上的问题是：这次宫斗的时间点，就在 OpenAI 即将完成可能是硅谷史上最大一轮融资的同一周。本周，OpenAI 首席技术官 Mira Murati、首席研究官 Bob McGrew 和 Post Training 研究副总裁 Bar

《Python机器学习》作者科普长文：从头构建类GPT文本分类器，代码开源

学起来吧！近日，机器学习研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又分享了一篇长文，主题为《从头开始构建一个 GPT 风格的 LLM 分类器》。文章展示了如何将预训练的大型语言模型（LLM）转化为强大的文本分类器。AI在线对文章内容进行了不改变原意的编译、整理：为什么要关注分类呢？首先，针对分类任务，对预训练模型进行微调是一个简单有效的 LLM 知识入门方式。其次，文本分类有许多商业应用场景，比如：垃圾邮件检测、情感分析、客户反馈分类、主题分类等等。阅读完本文，你将找到以下

从数据增强的隐藏作用出发，揭示视觉强化学习可塑性损失的独特机制

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected] 等研究人员近期在《Nature》上发表的研究《Loss of Plasticity in Deep Continual Learning》揭示了一个重要发现：在持续学习环境中

长短大小样样精通！原始分辨率、超长视频输入：更灵活的全开源多模态架构Oryx

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文的主要作者来自清华大学智能视觉实验室（i-Vision Group）、腾讯公司和南洋理工大学 S-Lab。本文的共同第一作者为清华大学自动化系博士生刘祖炎和南洋理工大学博士生董宇昊，主

Voyage-3 系列嵌入式 AI 模型登场：1/2.2 成本、1/3 嵌入维度下性能超 OpenAI v3 Large 模型 7.55%

科技媒体 marktechpost 昨日（9 月 27 日）发布博文，报道称 Voyage AI 公司推出了 Voyage-3 和 Voyage-3-Lite 两个嵌入式（Embedding）模型。这两个模型在技术、法律、金融、多语言应用和长文本理解等方面，均表现出超出同类模型的优势，在保持较小模型规模和较低的资源消耗情况下，为开发者提供更高效、更易于集成的解决方案。AI在线援引 Voyage AI 官方数据，在技术文档、代码、法律、金融、网页内容、多语言数据集、长文档和对话数据等方面，Voyage-3 以 1/2

微软被曝拓展 Copilot AI 应用，打造专属于你的新闻主播

科技媒体 Windows Central 昨日（9 月 27 日）报道，微软公司正计划扩展 Copilot，打造个性化的虚拟新闻主播，播报用户感兴趣的相关新闻和动态信息。消息称微软在文生图和网络搜索之外，积极推动各项 AI 服务落地。AI在线曾于 9 月 21 日报道，微软启动第二波 Copilot 更新，引入了全新的 Pages，为 Excel 支持 Python 语言，以及上线 Copilot Agents 等。微软计划重塑移动端 Copilot 应用程序，将常规的 AI 助手转变为虚拟新闻主播，目前微软已经

微软网页版 OneDrive 正式融合 Copilot：一键总结、多文件对比，AI 提高你的生产力

微软公司昨日（9 月 27 日）发布新闻稿，宣布面向获得 Copilot 许可的商业用户，正式开放网页版 OneDrive 中的 Copilot，意味着用户可以探索全新的 AI 文件处理方式。OneDrive 中的 Copilot 的技能包括：为大文件生成摘要Copilot 能够为用户生成文档摘要，节省查找关键点的时间，并帮助用户专注于最重要的内容。对比多个文档中的差异用户无需打开文件，Copilot 可以比较多个文档的差异，快速展示关键差异。回答文件内容相关话题Copilot 能够分析 OneDrive 中的文件

腾讯、同济大学达成合作：共建“大设计大模型行动”，上线大学教授 AI 智能体

感谢AI在线从腾讯官方获悉，在今天举行的 2024 年世界设计之都大会上，腾讯和同济大学宣布达成一项合作，双方将结合腾讯混元大模型能力，与同济大学在大设计学科的优势和影响力，共建“同济-腾讯大设计大模型行动（TT）”。该行动的目的，是打造设计领域首个拉通学科和产业全链路的设计大模型生态；连接设计院校、专家、产业和消费者；助力实现大规模、个性化的教学科研与产业创新。双方合作的初步尝试是“大学教授 AI 智能体”Prof.Lou，其能够回答各种设计相关的专业问题。据介绍，Prof. Lou 收集了娄教授公开发表的著作、

商汤科技元萝卜 AI 下棋机器人国际象棋专业版预售，到手 4799 元

商汤科技旗下的“元萝卜国际象棋机器人”9 月 25 日正式开启预售。据介绍，该产品是商汤科技继“象棋版”和“围棋版”后推出的第三款 AI 下棋机器人产品 ——AI 下棋机器人国际象棋专业版，预售价 4999 元（AI在线注：到手价 4799 元）。其采用机械臂机械爪设计，配备可垂直精准抓取的“灵巧手”，可完成立体棋子识别等动作。该机器人内置“AI 陪练”功能，包括对弈、打谱、习题，具备 25 级棋力等级，覆盖 200-2900 等级分，同时，用户也可体验超过 25 级关卡的更高棋力。其打通多家国际象棋在线平台

实测字节豆包·视频生成模型：Sora画的饼被实现了......

但更多的网友则是期待字节的视频生成模型，因为早在去年11月，字节的项目Make Pixels Dance就展示字节具备了解决长AI视频中角色一致性难以保持的问题。所以我也看到很多外网网友的另一个问题“Where is ByteDacne?”。而就在9.24火山引擎AI创新巡展深圳站上，火山引擎一口气发布了个视频生成模型PixelDance和Seaweed模型。

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

编辑 | 萝卜皮人工智能（AI）的一个关键挑战是：如何创建能够通过「探索新领域」、「识别复杂模式」和「揭示海量科学数据中隐藏的联系」来自主推进科学理解的系统。在最近的工作中，麻省理工学院（Massachusetts Institute of Technology）原子与分子力学实验室（LAMM）的研究人员提出了 SciAgents，一种可以整合利用三个核心概念的方法：（1）使用大规模本体知识图谱来组织和互连不同的科学概念；（2）一套大型语言模型（LLM）和数据检索工具；（3）具有现场学习能力的多智能体（agent）

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力，突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出，成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好，但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内，例如知识、推理或安全，这使得在复杂的医学任务中对这些模型进行全面评估变得复杂。来自加州大学圣克鲁斯分校、爱丁堡大学和美国国立卫生研究院的研究人员评估了 OpenAI 的 o1 模型在医

中国算力大会，联想重磅发布两款明星算力新品

9月27日，为期3天的2024中国算力大会正式拉开帷幕。在大会异构智算产业生态联盟技术论坛上，联想集团正式发布新一代AI服务器联想问天WA7880a G3和联想AIPod应用部署解决方案两款重磅产品和解决方案。联想AI基础设施“一横五纵”的战略版图进一步丰富和完善。联想问天WA7880a G3是针对AI大模型训练推出的新一代AI服务器，具备多元算力、灵活配置和节能高效三大特点。它也是国内首款支持OAM 2.0模组的服务器，可兼容国内主流GPU厂商的OAM GPU；在配置选择上支持CPU和GPU之间单上行和双上行拓扑

猫眼娱乐发布动态故事板 AI 生成工具“神笔马良”：视听化呈现剧本内容

猫眼娱乐今天发布了首个面向长剧本解析的动态故事板 AI 生成工具“神笔马良”，该产品可对用户上传的剧本进行一键智能分析、智能角色创作、智能分镜创作、智能台词朗读，实现剧本内容的视听化呈现。“神笔马良”有严格的产品使用规范和内部管理举措，作为对剧本原创性的保护。其对剧本访问实施严格的控制措施，配备风险阻断机制、落实访问机制和操作留痕等方式，实现权限最小化管控。应用场景方面，该产品可应用于项目提报、创投路演、创意阐释、剧本会议、分镜设计等多个阶段。AI在线从官方获悉，“神笔马良”能够对剧本内容进行 AI 智能分析。根据

谷歌 AI 笔记助手 NotebookLM 获更新：支持总结视频内容、创建学习指南

谷歌本周对旗下 AI 笔记助手 NotebookLM 进行更新，目前该助手已支持对视频内容进行总结（现支持 YouTube 平台）。▲ 图源谷歌（下同）谷歌 NotebookLM 自去年 7 月发布以来一直不断更新，与传统聊天机器人不同，NotebookLM 更侧重于辅助用户“学术思考”，允许用户根据需要对文章、视频、音频进行摘要。AI在线获悉，目前谷歌 NotebookLM 模型采用 Gemini 1.5 Pro 作为底层，而本次更新带来的视频内容总结能力主要用于获取视频片段关键点，方便用户快速跳转到特定视频时间

美图公司旗下 AI 短片创作工具 MOKI 开放：覆盖动画短片、网文短剧、故事绘本等

美图公司旗下 AI 短片创作工具 MOKI 昨日（9 月 26 日）面向全部用户开放。官方介绍称，与市面上流行的文生视频产品、图生视频产品不同，MOKI 专注于 AI 短片创作这一场景，覆盖动画短片、网文短剧、故事绘本、MV 等多个类型的视频内容生产。▲ MOKI 首期上线视觉风格使用 MOKI 的流程如下：在前期设定阶段，输入故事梗概或导入现有脚本，MOKI 生成分镜脚本并提供多种设定选项在内容生成阶段，MOKI 生成分镜画面并允许细节修改在后期制作阶段，MOKI 生成带有配乐的视频内容，允许用户对视频生成效果