AI - AI在线

从 Anthropic 离职后，消息称 OpenAI 联合创始人舒尔曼将加入前 CTO 新公司

OpenAI 联合创始人约翰・舒尔曼（John Schulman）上周离开了人工智能初创公司 Anthropic，在该公司仅仅待了五个月。据《财富》杂志报道，他将加入 OpenAI 前首席技术官米拉・穆拉蒂（Mira Murati）的神秘新公司。

免费功能卷翻付费版ChatGPT，欧洲AI新贵叫板OpenAI

“欧洲OpenAI”Mistral AI有新动作了！ Le Chat（法语“猫”）全新升级，官方自称它是“您生活和工作的终极AI助手”。从今天开始，Le Chat上线移动端，iOS和Android都支持，不久也将对企业私有基础设施开放。

全球顶级AI科学家许主洪加盟阿里！IEEE Fellow，五万被引论文数，曾任Salesforce集团副总裁

AI的新进展频频，人才动态也愈加重磅。新年第一则大牛人事动向，引发业内关注。许主洪，IEEE Fellow，新加坡管理大学终身教授，被曝加盟阿里。

AI 赋能！Spring Boot 封装智能模块，轻松实现自动化

在当今数字化时代，人工智能（AI）正以前所未有的速度深入各个行业，成为提升企业竞争力和优化用户体验的重要驱动力。无论是智能客服、自动文本生成，还是数据分析和预测，AI 的应用场景正变得越来越广泛。对于开发者而言，如何高效地将 AI 技术集成到业务系统中，是一个至关重要的问题。

谷歌放弃“不开发武器 AI”承诺引争议，前高管吴恩达表示支持

谷歌近期删除了其 AI 原则中关于“不开发用于武器的 AI 系统”的承诺，这一决定引发了广泛争议。谷歌大脑（Google Brain）的创始人兼前负责人吴恩达（Andrew Ng）在旧金山的军事老兵创业大会上公开表示支持谷歌的这一决定。

OpenAI 计划在德国开设办事处，扩大其在欧盟的影响力

OpenAI 正在加速其国际化布局，此次将目光投向了德国。据本周五发布的一份新闻稿显示，ChatGPT 的开发公司 OpenAI 计划在未来数月内在德国慕尼黑开设办事处。

近期，即梦AI在官方社交媒体上发布了一条新功能上线预告片。视频显示，采用了全新的多模态视频生成模型OmniHuman，用户仅需输入一张图片和一段音频，就可以生成一条生动的AI视频，有望大幅提升AI短片的制作效率和质量。图片来自即梦AI视频号内容截图OmniHuman技术主页信息显示，该模型为字节跳动自研的闭源模型，可支持肖像、半身以及全身等不同尺寸的图片输入，并根据输入的音频，在视频中让人物生成与之匹配的动作，包括演讲、唱歌、乐器演奏以及移动。

突破“数据再生产陷阱”：从“语言游戏”迈向超人智能

人类文明的演进始终离不开对信息流通方式的改造：从印刷术到电报，再到互联网，每一次交互门槛的下降都可能催生出新的社会与技术浪潮。在当前的人工智能（AI）领域，这种“门槛降低”也正在发生：近期，开源大语言模型 DeepSeek R1 借助强化学习技术，在多个关键指标上接近了商用顶尖模型 OpenAI O1，引发行业热议。为什么这一进展值得关注？

你的提示词根本只是在浪费算力，让deepseek达到最佳效果的三大原则

最近几周自学deepseek原理应用实践，一些成果，和大家分享。与deepseek这类AI对话，为了达到最佳效果，提示词应当遵循哪三大原则？清晰性；结构化；细节化；为什么？

被DeepSeek带火的知识蒸馏，开山之作曾被NeurIPS拒收，Hinton坐镇都没用

DeepSeek带火知识蒸馏，原作者现身爆料：原来一开始就不受待见。称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》，当年被NeurIPS 2014拒收。如何评价这篇论文的含金量？

Andrej Karpathy 最新视频盛赞 DeepSeek：R1 正在发现人类思考的逻辑并进行复现

继近日斯坦福李飞飞、Percy Liang 等人推出 S1 后，李飞飞的学生、OpenAI 早期成员与前特斯拉 AI 总监也录制了一期最新长达 3 小时的长视频上传到 YouTube，深入浅出地从神经网络的起源、GPT-2、ChatGPT 到最近 DeepSeek-R1 介绍了 AI 大模型的系列进化：视频链接：，视频讲解十分通俗易懂，即使没有技术背景的观众也能轻松理解！尤其是在视频的第 2 个小时开始，他对最近爆火的 DeepSeek-R1 论文进行了深入介绍，并直言 DeepSeek R1 在性能方面与 OpenAI 的模型不相上下，它的出现推动了 RL 技术的发展。除了盛赞 DeepSeek-R1 的技术创新外，Andrej Karpathy 还对纯 RL 的学习能力给予了高度评价，但又指出 RL 非常非常擅长发现一种方法来“欺骗”模型，阻碍了 RLHF 成为专业技术的步伐。

Meta 深陷盗版泥潭，邮件曝光 81.7 TB AI 训练数据黑幕

科技媒体 Ars Technica 今天（2 月 7 日）发布博文，报道称 Meta 公司再次因其 AI 模型训练数据来源，而陷入法律纠纷。

《麻省理工科技评论》点评中国AI“四剑客”，每家都媲美DeepSeek

春节期间，DeepSeek 一跃成为全球瞩目的焦点。它以仅约十分之一的超低训练成本，成功推出了性能与OpenAI o1近乎相当的开源模型，对全球科技领域带来巨大冲击，先后引发美国科技股的大幅下跌，以及硅谷科技巨头和各国政要的纷纷回应，如今全球各大芯片厂商和智算云服务厂商更是积极响应、跟进适配。半个月来，DeepSeek相关话题热度居高不下，热搜频频，已成为全球科技、经济乃至政治领域的重要话题。

架构创新×模型创新！清微智能全面适配DeepSeek模型推理和训练

随着大模型技术向多场景渗透，算力需求呈现「大规模、高弹性、低成本」三重挑战。清微智能基于全球领先的可重构计算架构（CGRA）推出可重构算力芯片RPU（Reconfigurable Processing Unit），实现单机高效运行千亿级参数模型推理和训练，以动态硬件重构、全栈优化及高能效比，重新定义国产AI芯片的性价比标杆。新年伊始，DeepSeek的惊艳亮相，不仅在科技圈掀起巨浪，其影响还涉及到经济、社会、政策等多个维度，相关企业迅速跟进。

DeepSeek 用的 GRPO 占用大量内存？有人给出了些破解方法

自 DeepSeek-R1 发布以来，群组相对策略优化（GRPO）因其有效性和易于训练而成为大型语言模型强化学习的热门话题。 R1 论文展示了如何使用 GRPO 从遵循 LLM（DeepSeek-v3）的基本指令转变为推理模型（DeepSeek-R1）。 GRPO 是一种在线学习算法（online learning algorithm），它通过使用训练过程中由训练模型自身生成的数据来进行迭代改进。

DeepSeek 爆红引发业界“狂欢”，第三方厂商嗅到商机跟风售卖 AI 网课 / 外设获利颇丰

国产 AI 公司深度求索开发的 AI 大模型 DeepSeek 在网络上成为爆款，作为一款开源、免费的大模型，尽管深度求索公司本身还未实现盈利，但目前已有大量其他厂商嗅到商机，打着“DeepSeek”旗号开始跟风“挣钱”。

DeepSeek R1 集成难题完美解决：Deepseek4j 已开源

一、为什么需要 deepseek4j？ 1.1 现有框架的局限性思维链内容丢失：R1 最核心的推理过程完全被忽略响应模式不兼容：无法处理"思考在前、结论在后"的输出模式参数限制：temperature、top_p 等关键参数设置失效流式处理不完善：用户体验欠佳虽然笔者上篇博客介绍了如何使用 WebFlux 直接调用 DeepSeek API，但这种方式存在一些问题：开发成本高：直接调用 API 或改造现有框架需要处理大量细节，包括请求构建、响应解析、错误处理等。一不做二不休，为了彻底解决这些问题，笔者基于 OpenAI4J[1] 项目的优秀架构，打造了一个专门面向 DeepSeek 的开箱即用方案 DeepSeek4J[2]增强支持 DeepSeek 独有的思维链和账单特性增加 Project Reactor 的全面响应式支持提供集成 Spring Boot Starter，提供自动配置二、核心特性 ✨ 完整保留思维链能力、账单🚀 响应式流式处理🛠 简单优雅的 API 设计📦 开箱即用的 Spring Boot 集成，同时支持 2.x / 3.x💡 内置调试页面🔍 详细的请求响应日志🔧 灵活的代理配置⚡️ 响应式编程支持三、快速开始 3.1 添加依赖复制3.2 配置参数复制3.3 基础使用复制3.4 进阶配置复制

夜深时分，与AI亲人们重逢

AI好好用报道编辑：Sia「远去者去了远方愿他都安心。」王菲在春晚演唱《世界赠予我的》时，那最后双手合十、泪洒舞台的瞬间，让人为之动容。背后是对离世至亲的深深怀念。

AI