AI在线 AI在线

模型

阿里PC-Agent重构人机交互,精准拆解跨应用指令,自动化办公更进一步

面向复杂PC任务的多模态智能体框架PC-Agent,来自阿里通义实验室。 从Office到浏览器,跨APP工作流都可以交给AI来完成了。 指令1(翻译):在记事本应用程序中,打开“文档”中的“备忘录”文件,查看上午的第二项活动。
3/4/2025 9:10:00 AM
量子位

标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等 | 开源

文字中貌似不起眼的标点符号,竟然可以显著加速大模型的训练和推理过程? 来自华为、港大、KAUST和马普所的研究者,就提出了一种新的自然语言建模视角——SepLLM。 起因是团队发现某些看似无意义的分隔符,在注意力得分中占据了不成比例的重要地位。
3/4/2025 9:00:00 AM
量子位

Hinton怒斥马斯克「电锯」屠遍美国科学界!3410位大佬联名将其从英国皇家学会除名

AI教父Hinton和马斯克吵起来了! 今天,Hinton公开叫板,「马斯克应该被英国皇家学会除名,最关键原因是他正在对美国科学机构造成巨大损害」。 这番言论如同一枚重磅炸弹,瞬间点燃了舆论战场。
3/4/2025 8:30:00 AM
新智元

GCD-DDPM:用扩散模型重塑变化检测,精准捕捉细粒度变化

一眼概览GCD-DDPM 提出了一种 基于差分特征引导的去噪扩散概率模型(DDPM) 进行 变化检测(CD) 的方法,采用 生成式方式 直接生成变化检测(CD)图,而非传统的判别式分类方式。 在四个高分辨率遥感数据集上,该方法展现了优越的检测性能。 核心问题目前主流变化检测(CD)方法大多依赖 CNN 或 Transformer 进行判别式特征学习,但它们在 同时捕获局部细节信息和长距离依赖关系 方面存在局限,导致 变化检测精度不足,尤其是对于 复杂场景的细粒度变化 无法精准捕捉。
3/4/2025 4:00:00 AM
萍哥学AI

告别传统 SSE!fetch-event-source 让 AI 流式处理更高效

在 AI 大模型飞速发展的时代,前端开发者面临着如何高效处理实时数据流的挑战。 服务器发送事件(SSE)作为一种单向通信协议,能够让服务器主动向客户端推送实时更新,广泛应用于实时聊天、新闻推送等场景。 然而,标准的 EventSource API 存在诸多限制,例如只能使用 GET 请求、无法传递请求体等。
3/4/2025 3:00:00 AM
PIG AI

Flora推出AI驱动的“无限画布”工具,专为创意专业人士打造

在当今的创意行业中,人工智能(AI)正逐渐成为重要的工具。 许多人只需输入几句话,就能利用 AI 模型生成故事、图像或短片。 然而,Flora 的创始人兼首席执行官韦伯・王(Weber Wong)指出,现有的 AI 工具大多是 “由非创意人士为其他非创意人士所设计”,并不能真正满足专业创意人员的需求。
3/3/2025 1:53:00 PM
AI在线

Sesame 发布 CSM 语音模型:跨越“恐怖谷”,逼真程度惊艳全球

Sesame 公司最新推出的语音合成模型“Conversational Speech Model”(简称 CSM)近日在 X 平台上引发热议,被誉为“像真人说话一样的语音模型”。 这款模型以其惊艳的自然度和情感表达能力,不仅让用户“已经无法分辨”其与人类的区别,还宣称成功跨越了语音领域的“恐怖谷效应”。 随着演示视频和用户反馈的传播,CSM 正迅速成为 AI 语音技术的新标杆。
3/3/2025 11:37:00 AM
AI在线

AI学术算命?Gemini 2.0预测谷歌AI大佬职业生涯,准到离谱!

如果让人工智能来点评博士论文,还顺手预测一下作者将来的职业发展。 会是什么样子? 最近,谷歌首席科学家、Gemini负责人Jeff Dean就玩了这么一出,他把自己的博士论文交给了最新的Gemini 2.0。
3/3/2025 11:21:40 AM
新智元

智谱华章完成超10亿元融资 计划开源新一代大模型

近日,北京智谱华章科技有限公司宣布其最新一轮战略融资金额超过10亿元人民币。 这轮融资的参与方包括杭州城投产业基金和上城资本等,显示了市场对智谱的强大信心与支持。 作为国内最早开源大模型的 AI 公司之一,智谱的目标是在2025年成为其开源发展的关键年份。
3/3/2025 10:04:00 AM
AI在线

LeCun世界模型再近一步!Meta研究证明:AI可无先验理解直觉物理

对物理的直观理解是人类认知的基础:期望物体的行为,具有可预测性,也就是说,物体不会突然出现或消失,穿过障碍物,或随意改变形状或颜色。 这种对物理的直观理解,还在更多物种中得到证实,包括猴子、鲸鱼、乌鸦等。 相关研究人员猜测:人类天生或婴幼儿时期就具备一套进化形成的、古老的系统,专门用于表示和推理世界的基本属性,比如物体、空间、数字、几何形状等。
3/3/2025 9:22:00 AM
新智元

小模型指导大模型!田渊栋等爆锤蒸馏:新方法更高效、更透明、更可控

「下一个token预测」(next token prediction,NTP)是大语言模型(LLMs)不断取得突破的核心技术。 但这种依赖tokenization的方法,导致LLM「严重偏科」。 比如,Karpathy发现一个表情包相当于53个token!关注AI的可能也知道GPT-4o不会数字母,不知道Strawberray中有几个字母「r」。
3/3/2025 9:16:00 AM
新智元

字节视频生成新突破!Phantom搞定多人物/主体一致性

视频生成模型当中已经不缺强者了,但保持多主体一致性依然是一项重大挑战。 字节智能创作团队专门针对这个问题,推出了主体一致性视频生成模型Phantom(“幻影”)。 Phantom在主体一致性保持方面取得了突破性进展,不仅支持多主体,还能同时保持主体的完整性。
3/3/2025 8:32:00 AM
量子位

Claude 3.7成精了!偷偷将OpenAI模型换成自己,卡帕西:迄今最好笑的一趴

Claude 3.7成精了! 在开发者最喜欢的Cursor中,偷偷将OpenAI模型换成自己,关键是人类给出的指示跟这完全没关系。 引来一众网友围观的同时,大佬卡帕西也被成功逗笑了:迄今为止最有意思的一趴。
3/3/2025 8:25:00 AM
量子位

DeepSeek突袭公布成本利润率:545%

五连开源后,DeepSeek还有One More Thing! 就在刚刚,DeepSeek官方亲自揭秘了DeepSeek-V3/R1推理系统。 重点包括,优化吞吐量和延迟的方法:跨节点EP驱动的批量扩展计算与通信重叠负载均衡还公布了DeepSeek的在线服务数据统计:每个H800节点每秒有73.7k/14.8k个输入/输出token成本利润率545%更多细节,一起来看官方原文↓更大的吞吐,更低的延迟DeepSeek-V3/R1推理系统的优化目标是:更大的吞吐,更低的延迟。
3/3/2025 8:21:00 AM
量子位

DeepSeek全面开源V3/R1推理系统!成本利润率高达545%

就在刚刚,当大家以为开源周已经结束的时候,真「Open AI」DeepSeek带来了压轴大戏——DeepSeek-V3/R1推理系统,全面揭秘! 吞吐量和延迟优化:跨节点高效并行(EP)驱动的批处理扩展计算与通信并行处理智能负载均衡在线服务性能数据:每个H800节点每秒处理73,700/14,800输入/输出token成本利润率高达545�epSeek表示,希望本周分享的技术见解能为开源社区带来价值,共同推进通用人工智能的发展目标。 看到这里,网友都惊了!
3/3/2025 8:17:00 AM
新智元

5分钟顶人类8小时!OpenAI Deep Research订阅全推送,端到端强化微调是关键

Deep Research(深度研究)是继「Operator」之后,OpenAI推出的第二个智能体,利用模型的推理能力,综合分析浩瀚的互联网信息,从而完成复杂的研究任务。 月初,OpenAI首先向ChatGPT Pro用户开放了Deep Research功能。 最近,进一步开放给了更多等级的订阅用户。
3/3/2025 8:02:00 AM
新智元

GPT-4.5被DeepSeek 500倍吊打!基准测试全班垫底,OpenAI痛失护城河

自从OpenAI发布GPT-4.5之后,Ilya这张图又开始火了。 GPT-4.5令人失望的表现,再次印证了Ilya这句话的含金量:预训练已经达到极限,推理Scaling才是未来有希望的范式。 GPT-4.5在基准测试上并没有提升,推理没有增强,只是变成了一个更易于合作、更有创造性、幻觉更少的模型。
3/3/2025 8:00:00 AM
新智元