工程
少量视角也能得到完整3D几何,即插即用的语义增强重建插件来了
本文作者来自上海交通大学、英国曼彻斯特大学与香港中文大学。 团队成员包括:徐博、王钰超、乐心怡(上海交通大学,自动化系),郭宇鹄、王昌凌(英国曼彻斯特大学,机械与航空航天工程学院),王文婷、任扬(香港中文大学,机械与自动化工程学系)。 表面重建的核心挑战,在于在少量视角下同时兼顾几何准确性、细节还原与结构完整性。
11/2/2025 5:36:00 PM
机器之心
上海AI Lab发布混合扩散语言模型SDAR:首个突破6600 tgs的开源扩散语言模型
程爽,上海人工智能实验室和浙江大学联培博士生一年级;卞一涵,美国马里兰大学硕士生二年级,上海人工智能实验室实习生;刘大卫,上海人工智能实验室和上海交通大学联培博士生一年级;齐弼卿,上海人工智能实验室研究员(指导老师)大模型推理速度慢、成本高,已成为限制其广泛应用的核心瓶颈。 其根源在于自回归(AR)模型「逐字生成」的串行模式。 近日,上海人工智能实验室针对该难题提出全新范式 SDAR (Synergistic Diffusion-AutoRegression)。
11/1/2025 8:40:00 PM
机器之心
AEPO:智能体熵平衡策略优化,让探索更稳,推理更深!
在智能体强化学习的快速发展中,如何在探索与稳定之间取得平衡已成为多轮智能体训练的关键。 主流的熵驱动式智能体强化学习(Agentic RL)虽鼓励模型在高不确定性处分支探索,但过度依赖熵信号常导致训练不稳、甚至策略熵坍塌问题。 为此,中国人民大学高瓴人工智能学院与快手 Klear 语言大模型团队联合提出 Agentic Entropy-Balanced Policy Optimization(AEPO),一种面向多轮智能体的熵平衡强化学习优化算法。
11/1/2025 8:27:00 PM
机器之心
单张4090跑到30fps,范浩强团队让VLA实时跑起来了
VLA(Visual-Language-Action)大模型到底能跑多快? 在这篇 RT-VLA(Real-time VLA)论文中,来自 Dexmal 原力灵机(由范浩强等人联合创立的具身智能公司)的研究者公布了一个反直觉的发现:它可以非常快! 具体而言,对于常用的 Pi0 级别的模型(30 亿参数),在单张消费级显卡 RTX 4090 上最快可以跑到 30fps。
10/31/2025 4:05:00 PM
机器之心
港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」
论文第一作者何浩然是香港科技大学博士生,研究方向包括强化学习和基础模型等,研究目标是通过经验和奖励激发超级智能。 共同第一作者叶语霄是香港科技大学一年级博士。 通讯作者为香港科技大学电子及计算机工程系、计算机科学与工程系助理教授潘玲。
10/31/2025 12:47:00 PM
机器之心
重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」
本文第一作者是中国人民大学高瓴人工智能学院 2021 级博士生王希华(导师宋睿华),他的主要研究兴趣方向是多模态生成。 本文通讯作者是宋睿华长聘副教授,她的 AIMind 团队主要研究方向是多模态感知、交互与生成。 背景:从「噪声到声音」到「视频到声音」在多模态生成领域,由视频生成音频(Video-to-Audio,V2A)的任务要求模型理解视频语义,还要在时间维度上精准对齐声音与动态。
10/31/2025 11:14:00 AM
机器之心
扩散语言模型新发现:其计算潜力正在被浪费?
按从左到右的顺序依次生成下一个 token 真的是大模型生成方式的最优解吗? 最近,越来越多的研究者对此提出质疑。 其中,有些研究者已经转向一个新的方向 —— 掩码扩散语言模型(MDLM)。
10/30/2025 5:12:00 PM
机器之心
世界模型可单GPU秒级生成了?腾讯开源FlashWorld,效果惊艳、免费体验
厦门大学和腾讯合作的最新论文《FlashWorld: High-quality 3D Scene Generation within Seconds》获得了海内外的广泛关注,在当日 Huggingface Daily Paper 榜单位列第一,并在 X 上获得 AK、Midjourney 创始人、SuperSplat 创始人等 AI 大佬点赞转发。 FlashWorld 不仅将三维场景的生成在单卡上做到了 5~10 秒(相比之前方法提速百倍),更统一支持了单张图片或文本输入,生成的场景可以在网页用户端实时渲染,同时质量还胜过其他同类闭源模型。 主页 :: Demo::,作者们还提供了 Huggingface 上的免费 Demo 可以试玩。
10/30/2025 5:07:00 PM
机器之心
人大、清华DeepAnalyze,让LLM化身数据科学家
来自人大和清华的研究团队发布了 DeepAnalyze,首个面向自主数据科学的 agentic LLM。 DeepAnalyze引起了社区内广泛讨论,一周内收获1000多个GitHub星标、20w余次社交媒体浏览量。 DeepAnalyze正在不断完善中,诚邀大家交流合作!
10/30/2025 5:01:00 PM
机器之心
扔掉人工公式:快手EMER框架,用“会比较、自进化”的模型重构短视频推荐排序
当你打开短视频 App,手指上下滑动的每一秒,背后都藏着一套决定 “你接下来看什么” 的排序逻辑。 过去十年,行业里的推荐排序大多依赖 “人工设计公式”—— 工程师们把 “用户会不会点赞”、“能看多久” 等指标,按经验分配权重、套进公式,算出每个视频的 “优先级分数”。 但这套模式正在遭遇瓶颈:有人喜欢 “短平快” 的搞笑视频,有人偏爱 “慢节奏” 的生活记录,一套公式怎么满足千万用户的个性化需求?
10/30/2025 12:08:00 PM
机器之心
ICCV 2025 | 港科、牛津大学发布AlignGuard,文图生成模型可规模化安全对齐框架
本文共一作者为刘润涛和陈奕杰,香港科技大学计算机科学方向博士生,主要研究方向为多模态生成模型和偏好优化。 背景介绍随着文图生成模型的广泛应用,模型本身有限的安全防护机制使得用户有机会无意或故意生成有害的图片内容,并且该内容有可能会被恶意使用。 现有的安全措施主要依赖文本过滤或概念移除的策略,只能从文图生成模型的生成能力中移除少数几个概念。
10/30/2025 11:55:00 AM
机器之心
苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM
用 iPhone 本地跑大模型已经不是新鲜事了,但能不能在 iPhone 上微调模型呢? 最近,苹果亲自上场,用一篇论文展示了其可行性。 在这篇论文中,苹果提出了一种内存高效型反向传播(MeBP)。
10/30/2025 10:26:00 AM
机器之心
中移动九天团队MultiPL-MoE:全新Hybrid-MoE架构用于增强通用大模型低资源代码能力
大语言模型(LLM)虽已展现出卓越的代码生成潜力,却依然面临着一道艰巨的挑战:如何在有限的计算资源约束下,同步提升对多种编程语言的理解与生成能力,同时不损害其在主流语言上的性能? 为此,中国移动九天团队创新性地提出了 Hybrid MoE 架构 —— MultiPL-MoE,该方案的核心在于耦合两个层次的专家选择机制进行优化:在 Token 层级,采用配备共享专家及新颖门控权重归一化方法的稀疏 MoE,以实现与段落层级专家的高效协同;在 Segment 层级,则创新性地引入滑动窗口划分与专家选择路由策略,使模型能够精准捕捉不同编程语言的语法结构与深层上下文模式。 目前,该项研究已被 EMNLP 2025 接收。
10/30/2025 10:23:00 AM
机器之心
牛津VGG、港大、上交发布ELIP:超越CLIP等,多模态图片检索的增强视觉语言大模型预训练
多模态图片检索是计算机视觉和多模态机器学习领域很重要的一个任务。 现在大家做多模态图片检索一般会用 CLIP/SigLIP 这种视觉语言大模型,因为他们经过了大规模的预训练,所以 zero-shot 的能力比较强。 牛津 VGG ,港大,上交大团队这篇论文旨在提供一种方法,能够用学术界的资源来增强视觉语言大模型的预训练 (Enhance Language-Image Pre-training),使得其可以更好地用于文字 - 图片检索。
10/29/2025 8:34:00 PM
机器之心
用「传心术」替代「对话」,清华大学联合无问芯穹、港中文等机构提出Cache-to-Cache模型通信新范式
随着大语言模型的快速进步,为了适应越来越多样的工作场景,模型越来越多在指定场景进行针对性训练,例如代码、数学计算、视觉理解、边缘计算等。 而在面对复杂任务与特定场景时,通过多智能体进行探索、决策、信息交换,可以实现相比单智能体更好的综合表现。 在多智能体系统中,现有的智能体多以 Text to Text(T2T)方式进行交流,即通过生成交流文本进行智能体之间的信息传递,而这种方式则会带来信息丢失(多维语义被压缩到一维文字)、语义模糊 [3][4]、巨大延迟(逐个 token 生成)三大问题。
10/29/2025 3:43:00 PM
机器之心
ICCV25 Highlight|格灵深瞳RICE模型狂刷榜单,让AI「看懂」图片的每个细节
最近,格灵深瞳公司灵感团队自研的视觉模型基座RICE(MVT v1.5)再次惊艳全场,刷榜多项视觉任务。 RICE 作为 MVT 系列的新模型,继续延续前作 Unicom(MVT v1.0)和 MLCD(MVT v1.1)的视觉预训练理念,秉持着 margin 表征代表语义的核心观点,在顶级学术会议 ICCV25 上获得 Highlight 荣誉。 代码地址::: 系列作为灵感团队自研的视觉基座预训练方法,从 1.0 开始,就聚焦于如何让视觉模型利用海量的数据集进行更加准确的视觉语义表征。
10/29/2025 3:35:00 PM
机器之心
NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临
视觉 Tokenizer 的困境与破局近年来,自回归(Autoregressive, AR)模型在语言生成领域的成功激发了其在图像生成领域的应用,涌现出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。 这类技术高度依赖于 VQGAN 等视觉 Tokenizer,它负责将高维、冗余的像素空间映射到一个低维、紧凑的离散潜在空间,是决定生成模型上限的基石。 然而,以 VQGAN 为代表的传统 Tokenizer 通常需要从零开始训练,其训练目标由像素级重建损失函数主导,导致其产生的潜在空间:富含低层细节特征却缺乏高层语义信息:能很好地还原图像细节,但潜在编码本身缺乏高层语义信息。
10/28/2025 5:54:00 PM
机器之心
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
Gemini
马斯克
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
研究
百度
Sora
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
特斯拉
场景
AI模型
深度学习
亚马逊
架构
Transformer
MCP
编程
视觉
预测