模型

阿里PC-Agent重构人机交互，精准拆解跨应用指令，自动化办公更进一步

面向复杂PC任务的多模态智能体框架PC-Agent，来自阿里通义实验室。从Office到浏览器，跨APP工作流都可以交给AI来完成了。指令1（翻译）：在记事本应用程序中，打开“文档”中的“备忘录”文件，查看上午的第二项活动。

3/4/2025 9:10:00 AM

量子位

标点符号成大模型训练神器！KV缓存狂减一半，可处理400万Tokens长序列，来自华为港大等 | 开源

文字中貌似不起眼的标点符号，竟然可以显著加速大模型的训练和推理过程？来自华为、港大、KAUST和马普所的研究者，就提出了一种新的自然语言建模视角——SepLLM。起因是团队发现某些看似无意义的分隔符，在注意力得分中占据了不成比例的重要地位。

3/4/2025 9:00:00 AM

量子位

Hinton怒斥马斯克「电锯」屠遍美国科学界！3410位大佬联名将其从英国皇家学会除名

AI教父Hinton和马斯克吵起来了！今天，Hinton公开叫板，「马斯克应该被英国皇家学会除名，最关键原因是他正在对美国科学机构造成巨大损害」。这番言论如同一枚重磅炸弹，瞬间点燃了舆论战场。

3/4/2025 8:30:00 AM

新智元

GCD-DDPM：用扩散模型重塑变化检测，精准捕捉细粒度变化

一眼概览GCD-DDPM 提出了一种基于差分特征引导的去噪扩散概率模型（DDPM）进行变化检测（CD）的方法，采用生成式方式直接生成变化检测（CD）图，而非传统的判别式分类方式。在四个高分辨率遥感数据集上，该方法展现了优越的检测性能。核心问题目前主流变化检测（CD）方法大多依赖 CNN 或 Transformer 进行判别式特征学习，但它们在同时捕获局部细节信息和长距离依赖关系方面存在局限，导致变化检测精度不足，尤其是对于复杂场景的细粒度变化无法精准捕捉。

3/4/2025 4:00:00 AM

萍哥学AI

告别传统 SSE！fetch-event-source 让 AI 流式处理更高效

在 AI 大模型飞速发展的时代，前端开发者面临着如何高效处理实时数据流的挑战。服务器发送事件（SSE）作为一种单向通信协议，能够让服务器主动向客户端推送实时更新，广泛应用于实时聊天、新闻推送等场景。然而，标准的 EventSource API 存在诸多限制，例如只能使用 GET 请求、无法传递请求体等。

3/4/2025 3:00:00 AM

PIG AI

中国2025一季度人工智能现状分析：摆脱“学生”标签，从追赶者到竞争者

3/3/2025 2:10:00 PM

AI在线

Flora推出AI驱动的“无限画布”工具，专为创意专业人士打造

在当今的创意行业中，人工智能（AI）正逐渐成为重要的工具。许多人只需输入几句话，就能利用 AI 模型生成故事、图像或短片。然而，Flora 的创始人兼首席执行官韦伯・王(Weber Wong)指出，现有的 AI 工具大多是 “由非创意人士为其他非创意人士所设计”，并不能真正满足专业创意人员的需求。

3/3/2025 1:53:00 PM

AI在线

Sesame 发布 CSM 语音模型：跨越“恐怖谷”，逼真程度惊艳全球

Sesame 公司最新推出的语音合成模型“Conversational Speech Model”（简称 CSM）近日在 X 平台上引发热议，被誉为“像真人说话一样的语音模型”。这款模型以其惊艳的自然度和情感表达能力，不仅让用户“已经无法分辨”其与人类的区别，还宣称成功跨越了语音领域的“恐怖谷效应”。随着演示视频和用户反馈的传播，CSM 正迅速成为 AI 语音技术的新标杆。

3/3/2025 11:37:00 AM

AI在线

AI学术算命？Gemini 2.0预测谷歌AI大佬职业生涯，准到离谱！

如果让人工智能来点评博士论文，还顺手预测一下作者将来的职业发展。会是什么样子？最近，谷歌首席科学家、Gemini负责人Jeff Dean就玩了这么一出，他把自己的博士论文交给了最新的Gemini 2.0。

3/3/2025 11:21:40 AM

新智元

智谱华章完成超10亿元融资计划开源新一代大模型

近日，北京智谱华章科技有限公司宣布其最新一轮战略融资金额超过10亿元人民币。这轮融资的参与方包括杭州城投产业基金和上城资本等，显示了市场对智谱的强大信心与支持。作为国内最早开源大模型的 AI 公司之一，智谱的目标是在2025年成为其开源发展的关键年份。

3/3/2025 10:04:00 AM

AI在线

LeCun世界模型再近一步！Meta研究证明：AI可无先验理解直觉物理

对物理的直观理解是人类认知的基础：期望物体的行为，具有可预测性，也就是说，物体不会突然出现或消失，穿过障碍物，或随意改变形状或颜色。这种对物理的直观理解，还在更多物种中得到证实，包括猴子、鲸鱼、乌鸦等。相关研究人员猜测：人类天生或婴幼儿时期就具备一套进化形成的、古老的系统，专门用于表示和推理世界的基本属性，比如物体、空间、数字、几何形状等。

3/3/2025 9:22:00 AM

新智元

小模型指导大模型！田渊栋等爆锤蒸馏：新方法更高效、更透明、更可控

「下一个token预测」（next token prediction，NTP）是大语言模型（LLMs）不断取得突破的核心技术。但这种依赖tokenization的方法，导致LLM「严重偏科」。比如，Karpathy发现一个表情包相当于53个token!关注AI的可能也知道GPT-4o不会数字母，不知道Strawberray中有几个字母「r」。

3/3/2025 9:16:00 AM

新智元

字节视频生成新突破！Phantom搞定多人物/主体一致性

视频生成模型当中已经不缺强者了，但保持多主体一致性依然是一项重大挑战。字节智能创作团队专门针对这个问题，推出了主体一致性视频生成模型Phantom（“幻影”）。 Phantom在主体一致性保持方面取得了突破性进展，不仅支持多主体，还能同时保持主体的完整性。

3/3/2025 8:32:00 AM

量子位

Claude 3.7成精了！偷偷将OpenAI模型换成自己，卡帕西：迄今最好笑的一趴

Claude 3.7成精了！在开发者最喜欢的Cursor中，偷偷将OpenAI模型换成自己，关键是人类给出的指示跟这完全没关系。引来一众网友围观的同时，大佬卡帕西也被成功逗笑了：迄今为止最有意思的一趴。

3/3/2025 8:25:00 AM

量子位

DeepSeek突袭公布成本利润率：545%

五连开源后，DeepSeek还有One More Thing！就在刚刚，DeepSeek官方亲自揭秘了DeepSeek-V3/R1推理系统。重点包括，优化吞吐量和延迟的方法：跨节点EP驱动的批量扩展计算与通信重叠负载均衡还公布了DeepSeek的在线服务数据统计：每个H800节点每秒有73.7k/14.8k个输入/输出token成本利润率545%更多细节，一起来看官方原文↓更大的吞吐，更低的延迟DeepSeek-V3/R1推理系统的优化目标是：更大的吞吐，更低的延迟。

3/3/2025 8:21:00 AM

量子位

DeepSeek全面开源V3/R1推理系统！成本利润率高达545%

就在刚刚，当大家以为开源周已经结束的时候，真「Open AI」DeepSeek带来了压轴大戏——DeepSeek-V3/R1推理系统，全面揭秘！吞吐量和延迟优化：跨节点高效并行（EP）驱动的批处理扩展计算与通信并行处理智能负载均衡在线服务性能数据：每个H800节点每秒处理73,700/14,800输入/输出token成本利润率高达545�epSeek表示，希望本周分享的技术见解能为开源社区带来价值，共同推进通用人工智能的发展目标。看到这里，网友都惊了！

3/3/2025 8:17:00 AM

新智元

5分钟顶人类8小时！OpenAI Deep Research订阅全推送，端到端强化微调是关键

Deep Research（深度研究）是继「Operator」之后，OpenAI推出的第二个智能体，利用模型的推理能力，综合分析浩瀚的互联网信息，从而完成复杂的研究任务。月初，OpenAI首先向ChatGPT Pro用户开放了Deep Research功能。最近，进一步开放给了更多等级的订阅用户。

3/3/2025 8:02:00 AM

新智元

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

自从OpenAI发布GPT-4.5之后，Ilya这张图又开始火了。 GPT-4.5令人失望的表现，再次印证了Ilya这句话的含金量：预训练已经达到极限，推理Scaling才是未来有希望的范式。 GPT-4.5在基准测试上并没有提升，推理没有增强，只是变成了一个更易于合作、更有创造性、幻觉更少的模型。

3/3/2025 8:00:00 AM

新智元

资讯热榜

AI视频资讯早读！7个产品更新+8个案例精选 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna 纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 OpenAI发布gpt-image-1 API，4o图像生成能力正式开放腾讯混元3D AI引擎2.5即将揭晓，3D生成技术再升级白板+代码编辑器组合工具pad.ws：开发者可在同一界面画图编程，实现边画边写代码

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion Gemini 马斯克算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Anthropic Sora 3D AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测人形机器人百度伟达苹果 Transformer 深度学习 xAI 模态字节跳动大语言模型 Claude 搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视频生成视觉安全干货合集应用大型语言模型科技亚马逊训练特斯拉 AGI DeepMind

模型

阿里PC-Agent重构人机交互，精准拆解跨应用指令，自动化办公更进一步

标点符号成大模型训练神器！KV缓存狂减一半，可处理400万Tokens长序列，来自华为港大等 | 开源

Hinton怒斥马斯克「电锯」屠遍美国科学界！3410位大佬联名将其从英国皇家学会除名

GCD-DDPM：用扩散模型重塑变化检测，精准捕捉细粒度变化

告别传统 SSE！fetch-event-source 让 AI 流式处理更高效

中国2025一季度人工智能现状分析：摆脱“学生”标签，从追赶者到竞争者

Flora推出AI驱动的“无限画布”工具，专为创意专业人士打造

Sesame 发布 CSM 语音模型：跨越“恐怖谷”，逼真程度惊艳全球

AI学术算命？Gemini 2.0预测谷歌AI大佬职业生涯，准到离谱！

智谱华章完成超10亿元融资 计划开源新一代大模型

LeCun世界模型再近一步！Meta研究证明：AI可无先验理解直觉物理

小模型指导大模型！田渊栋等爆锤蒸馏：新方法更高效、更透明、更可控

字节视频生成新突破！Phantom搞定多人物/主体一致性

Claude 3.7成精了！偷偷将OpenAI模型换成自己，卡帕西：迄今最好笑的一趴

DeepSeek突袭公布成本利润率：545%

DeepSeek全面开源V3/R1推理系统！成本利润率高达545%

5分钟顶人类8小时！OpenAI Deep Research订阅全推送，端到端强化微调是关键

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

智谱华章完成超10亿元融资计划开源新一代大模型