AI

从 Anthropic 离职后,消息称 OpenAI 联合创始人舒尔曼将加入前 CTO 新公司

OpenAI 联合创始人约翰・舒尔曼(John Schulman)上周离开了人工智能初创公司 Anthropic,在该公司仅仅待了五个月。据《财富》杂志报道,他将加入 OpenAI 前首席技术官米拉・穆拉蒂(Mira Murati)的神秘新公司。

免费功能卷翻付费版ChatGPT,欧洲AI新贵叫板OpenAI

“欧洲OpenAI”Mistral AI有新动作了! Le Chat(法语“猫”)全新升级,官方自称它是“您生活和工作的终极AI助手”。 从今天开始,Le Chat上线移动端,iOS和Android都支持,不久也将对企业私有基础设施开放。

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

AI的新进展频频,人才动态也愈加重磅。 新年第一则大牛人事动向,引发业内关注。 许主洪,IEEE Fellow,新加坡管理大学终身教授,被曝加盟阿里。

AI 赋能!Spring Boot 封装智能模块,轻松实现自动化

在当今数字化时代,人工智能(AI)正以前所未有的速度深入各个行业,成为提升企业竞争力和优化用户体验的重要驱动力。 无论是智能客服、自动文本生成,还是数据分析和预测,AI 的应用场景正变得越来越广泛。 对于开发者而言,如何高效地将 AI 技术集成到业务系统中,是一个至关重要的问题。

谷歌放弃“不开发武器 AI”承诺引争议,前高管吴恩达表示支持

谷歌近期删除了其 AI 原则中关于“不开发用于武器的 AI 系统”的承诺,这一决定引发了广泛争议。谷歌大脑(Google Brain)的创始人兼前负责人吴恩达(Andrew Ng)在旧金山的军事老兵创业大会上公开表示支持谷歌的这一决定。

OpenAI 计划在德国开设办事处,扩大其在欧盟的影响力

OpenAI 正在加速其国际化布局,此次将目光投向了德国。据本周五发布的一份新闻稿显示,ChatGPT 的开发公司 OpenAI 计划在未来数月内在德国慕尼黑开设办事处。

字节最新OmniHuman数字人模型即将上线即梦

近期,即梦AI在官方社交媒体上发布了一条新功能上线预告片。 视频显示,采用了全新的多模态视频生成模型OmniHuman,用户仅需输入一张图片和一段音频,就可以生成一条生动的AI视频,有望大幅提升AI短片的制作效率和质量。 图片来自即梦AI视频号内容截图OmniHuman技术主页信息显示,该模型为字节跳动自研的闭源模型,可支持肖像、半身以及全身等不同尺寸的图片输入,并根据输入的音频,在视频中让人物生成与之匹配的动作,包括演讲、唱歌、乐器演奏以及移动。

突破“数据再生产陷阱”:从“语言游戏”迈向超人智能

人类文明的演进始终离不开对信息流通方式的改造:从印刷术到电报,再到互联网,每一次交互门槛的下降都可能催生出新的社会与技术浪潮。 在当前的人工智能(AI)领域,这种“门槛降低”也正在发生:近期,开源大语言模型 DeepSeek R1 借助强化学习技术,在多个关键指标上接近了商用顶尖模型 OpenAI O1,引发行业热议。 为什么这一进展值得关注?

你的提示词根本只是在浪费算力,让deepseek达到最佳效果的三大原则

最近几周自学deepseek原理 应用 实践,一些成果,和大家分享。 与deepseek这类AI对话,为了达到最佳效果,提示词应当遵循哪三大原则? 清晰性;结构化;细节化;为什么?

被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用

DeepSeek带火知识蒸馏,原作者现身爆料:原来一开始就不受待见。 称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》,当年被NeurIPS 2014拒收。 如何评价这篇论文的含金量?

Andrej Karpathy 最新视频盛赞 DeepSeek:R1 正在发现人类思考的逻辑并进行复现

继近日斯坦福李飞飞、Percy Liang 等人推出 S1 后,李飞飞的学生、OpenAI 早期成员与前特斯拉 AI 总监也录制了一期最新长达 3 小时的长视频上传到 YouTube,深入浅出地从神经网络的起源、GPT-2、ChatGPT 到最近 DeepSeek-R1 介绍了 AI 大模型的系列进化:视频链接:,视频讲解十分通俗易懂,即使没有技术背景的观众也能轻松理解! 尤其是在视频的第 2 个小时开始,他对最近爆火的 DeepSeek-R1 论文进行了深入介绍,并直言 DeepSeek R1 在性能方面与 OpenAI 的模型不相上下,它的出现推动了 RL 技术的发展。 除了盛赞 DeepSeek-R1 的技术创新外,Andrej Karpathy 还对纯 RL 的学习能力给予了高度评价,但又指出 RL 非常非常擅长发现一种方法来“欺骗”模型,阻碍了 RLHF 成为专业技术的步伐。

Meta 深陷盗版泥潭,邮件曝光 81.7 TB AI 训练数据黑幕

科技媒体 Ars Technica 今天(2 月 7 日)发布博文,报道称 Meta 公司再次因其 AI 模型训练数据来源,而陷入法律纠纷。

《麻省理工科技评论》点评中国AI“四剑客”,每家都媲美DeepSeek

春节期间,DeepSeek 一跃成为全球瞩目的焦点。 它以仅约十分之一的超低训练成本,成功推出了性能与OpenAI o1近乎相当的开源模型,对全球科技领域带来巨大冲击,先后引发美国科技股的大幅下跌,以及硅谷科技巨头和各国政要的纷纷回应,如今全球各大芯片厂商和智算云服务厂商更是积极响应、跟进适配。 半个月来,DeepSeek相关话题热度居高不下,热搜频频,已成为全球科技、经济乃至政治领域的重要话题。

架构创新×模型创新!清微智能全面适配DeepSeek模型推理和训练

随着大模型技术向多场景渗透,算力需求呈现「大规模、高弹性、低成本」三重挑战。 清微智能基于全球领先的可重构计算架构(CGRA)推出可重构算力芯片RPU(Reconfigurable Processing Unit),实现单机高效运行千亿级参数模型推理和训练,以动态硬件重构、全栈优化及高能效比,重新定义国产AI芯片的性价比标杆。 新年伊始,DeepSeek的惊艳亮相,不仅在科技圈掀起巨浪,其影响还涉及到经济、社会、政策等多个维度,相关企业迅速跟进。

DeepSeek 用的 GRPO 占用大量内存?有人给出了些破解方法

自 DeepSeek-R1 发布以来,群组相对策略优化(GRPO)因其有效性和易于训练而成为大型语言模型强化学习的热门话题。 R1 论文展示了如何使用 GRPO 从遵循 LLM(DeepSeek-v3)的基本指令转变为推理模型(DeepSeek-R1)。 GRPO 是一种在线学习算法(online learning algorithm),它通过使用训练过程中由训练模型自身生成的数据来进行迭代改进。

DeepSeek 爆红引发业界“狂欢”,第三方厂商嗅到商机跟风售卖 AI 网课 / 外设获利颇丰

国产 AI 公司深度求索开发的 AI 大模型 DeepSeek 在网络上成为爆款,作为一款开源、免费的大模型,尽管深度求索公司本身还未实现盈利,但目前已有大量其他厂商嗅到商机,打着“DeepSeek”旗号开始跟风“挣钱”。

DeepSeek R1 集成难题完美解决:Deepseek4j 已开源

一、为什么需要 deepseek4j? 1.1 现有框架的局限性思维链内容丢失:R1 最核心的推理过程完全被忽略响应模式不兼容:无法处理"思考在前、结论在后"的输出模式参数限制:temperature、top_p 等关键参数设置失效流式处理不完善:用户体验欠佳虽然笔者上篇博客介绍了如何使用 WebFlux 直接调用 DeepSeek API,但这种方式存在一些问题:开发成本高:直接调用 API 或改造现有框架需要处理大量细节,包括请求构建、响应解析、错误处理等。 一不做二不休,为了彻底解决这些问题,笔者基于 OpenAI4J[1] 项目的优秀架构,打造了一个专门面向 DeepSeek 的开箱即用方案 DeepSeek4J[2]增强支持 DeepSeek 独有的思维链和账单特性增加 Project Reactor 的全面响应式支持提供集成 Spring Boot Starter,提供自动配置 二、核心特性 ✨ 完整保留思维链能力、账单🚀 响应式流式处理🛠 简单优雅的 API 设计📦 开箱即用的 Spring Boot 集成,同时支持 2.x / 3.x💡 内置调试页面🔍 详细的请求响应日志🔧 灵活的代理配置⚡️ 响应式编程支持 三、快速开始 3.1 添加依赖复制3.2 配置参数复制3.3 基础使用复制3.4 进阶配置复制

夜深时分,与AI亲人们重逢

AI好好用报道编辑:Sia「远去者去了远方 愿他都安心。 」王菲在春晚演唱《世界赠予我的》时,那最后双手合十、泪洒舞台的瞬间,让人为之动容。 背后是对离世至亲的深深怀念。