AI在线 AI在线

数据

仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25

从自动驾驶、机器人导航,到AR/VR等前沿应用,SLAM都是离不开的核心技术之一。 现有基于3D高斯分布(3DGS)的SLAM方法虽在室内场景表现出色,但使用仅RGB输入来处理无界的户外场景仍然面临挑战:准确的深度和尺度估计困难,这影响了姿态精度和3DGS初始化图像重叠有限且视角单一,缺乏有效的约束,导致训练难以收敛为了解决上述挑战,港科广团队提出全新解决方案——OpenGS-SLAM。 仅凭RGB图像实现高精度定位与逼真场景重建。
3/19/2025 10:00:41 AM
量子位

首次,6人7天真人秀!南洋理工等发布第一视角AI生活管家数据EgoLife

当AI智能体(如Manus)接管你的大部分工作后,你是否曾想过,如何让自己的生活变得更加轻松与智能? 试想一个未来场景:你佩戴着智能眼镜,一个AI助理能无缝融入你的日常生活,根据你的个人习惯提供贴心的美食建议,下班后提醒你曾经购买过的物品,甚至通过分析你和家人过去的活动来主动预测你的需求。 这样一款「生活助手」将极大提升个人效率和家庭协作,让AI真正成为我们生活中的得力管家。
3/19/2025 9:43:43 AM
新智元

多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代

DeepSeek-R1 问世后,我们一直在期待能「强推理、慢思考」的大模型进化成多模态模式。 如果能在视觉等各领域复刻强化学习(RL)在文本上的突破,AI 应用势必会将更多领域推入新的范式。 毫无疑问,这也是众多科技公司正在探索的方向。
3/19/2025 8:30:00 AM
机器之心

o1/o3后训练负责人离职创业,奥特曼把OpenAI玩成另一个YC孵化器了

OpenAI高管离职潮继续:CTO Mira卷着一票人才集体出走之后,刚刚,后训练研究副总裁William Fedus也官宣离职创业了。 他在不到半年前,也就是去年10月刚刚晋升——没错,彼时OpenAI的上一任后训练负责人Barret Zoph等人刚刚跟着CTO Mira跑路。 在那一拨人才离职潮中,William (Liam) Fedus是顶上重任的主要角色之一。
3/18/2025 1:14:13 PM
量子位

https://mp.weixin.qq.com/s/-lOj5naC2Yb3BD32YuUyOw

机构: 北京大学人工智能研究院 北京通用人工智能研究院作者: 毛彦升 徐宇飞 李佳琪 孟繁续 杨昊桐 郑子隆 王希元 张牧涵长文本任务是当下大模型研究的重点之一。 在实际场景和应用中,普遍存在大量长序列(文本、语音、视频等),有些甚至长达百万级 tokens。 扩充模型的长文本能力不仅意味着可以在上下文窗口中装入更长的文本,更是能够更好地建模文本段落间信息的长程依赖关系,增强对长文的阅读理解和推理。
3/17/2025 12:55:18 PM
机器之心

想纠正LMM犯错?没用!NUS华人团队:最强o1反馈修正率不到50%

大规模多模态模型(Large Multimodal Models,LMM)在人类反馈下的表现如何? 这一问题对于利用LMM开发通用AI助手至关重要,现有的基准测试并未针对LMM与人类的交互智能进行测试。 来自新加坡国立大学的华人团队提出了InterFeedback,一个可应用任何LMM和数据集的交互式框架。
3/17/2025 9:35:00 AM
新智元

哥大博士经费被砍当场崩溃!全美高校遭史上最大规模裁员,科研圈遭灭顶之灾

早上7点,哥大生物医学工程系的博士研究生Daniella Fodera接到实验室主任的电话,得知自己的项目基金被终止,当场崩溃痛哭。 而她的遭遇,只是众多受特朗普政府决策打击的科学家的缩影。 美国政府发起的削减拨款,如今已经在全美高校引起了大地震。
3/17/2025 8:10:00 AM
新智元

MM-Eureka:极少数据实现多模态推理的R1-Zero时刻

尽管 DeepSeek-R1 在单模态推理中取得了显著成功,但已有的多模态尝试(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全复现其核心特征。 例如,R1-V 仅在简单计数任务上表现出进步,未能实现回答长度的增长和顿悟时刻;R1-Multimodal-Journey 则在训练过程中回答长度反而降低;LMM-R1 虽然有所进步,但尚未在大规模图文数据训练中得到验证。 而 Kimi 1.5 尽管表现突出,但并未开源其模型或数据。
3/14/2025 11:59:29 AM
机器之心

一家高校实验室,走出12家明星AI初创公司!Pieter Abbeel:我的NB学生们

一家高校实验室 ,能走出多少个知名 AI 初创公司的创始人? 强化学习大牛、UC 伯克利教授 Pieter Abbeel 浅浅统计了一番:我带过的学生里,也就 12 个吧。 这些公司的名气都不小:OpenAI、Perplexity、Physical Intelligence、Inception AI、Reflection…… 相信你都听说过。
3/14/2025 9:24:29 AM
机器之心

自动调整推理链长度,SCoT来了!为激发推理能力研究还提出了一个新架构

不怕推理模型简单问题过度思考了,能动态调整CoT的新推理范式SCoT来了! SCoT,即自结构化推理链(Self-structured Chain of Thought )。 它通过将推理过程分解为最小语义原子步骤,能动态生成适配不同复杂度问题的CoT结构,解决了现有方法在推理多样性和效率上的不足。
3/13/2025 1:00:00 PM
量子位

长链推理表象下,大模型精细表征张冠李戴的本质

近些年,大模型的发展可谓是繁花似锦、烈火烹油。 从 2018 年 OpenAI 公司提出了 GPT-1 开始,到 2022 年底的 GPT-3,再到现在国内外大模型的「百模争锋」,DeepSeek 异军突起,各类大模型应用层出不穷。 然而,无论在学术界还是在工业界,目前对大模型应用的评测都是单纯在模型输出层面判断结果的准确性,而没有从大模型内在精细决策逻辑的角度来分析模型的可靠性。
3/13/2025 11:18:14 AM
张拳石、陈鹭

担心成为「AI界奥本海默」!DeepMind、Anthropic CEO同框,26年AGI降临?

当今世界,谁最有可能成为「AI时代的奥本海默」? DeepMind的创始人Hassabis与Anthropic的创始人Dario无疑是热门人选。 近日,这两位AI巨头罕见地坐到了一起,在《经济学人》的访谈中,直面AGI(通用人工智能)带来的种种争议与挑战。
3/13/2025 10:50:00 AM
新智元

14B 小模型逆袭翻译赛道,论文财报实测超Claude,不信试试“我命由我不由天”

都说通用大模型轻松拿捏翻译,结果有人来掀桌了。 来自网易有道的14B翻译小模型,测试达行业第一,翻译质量超越一众国内外主流通用大模型。 它就是子曰翻译大模型2.0(下文简称子曰2.0),在英译中方面轻松超越Claude 3.5 Sonnet等12个主流通用大模型,中译英也和Claude 3.5 Sonnet达到同等水平。
3/13/2025 10:04:06 AM
量子位

揭示显式CoT训练机制:思维链如何增强推理泛化能力

基于逐步生成解决方案的大语言模型(LLMs)训练范式在人工智能领域获得了广泛关注,并已发展成为行业内的主流方法之一。 例如,OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了针对 O1 模型的强化微调(Reinforcement Fine-Tuning,RFT),进一步推动了 AI 定制化的发展[1]。 RFT/ReFT[2] 的一个关键组成部分是使用思维链(Chain-of-Thought,CoT)注释[3] 进行监督微调(Supervised Fine-Tuning,SFT)。
3/12/2025 9:48:19 AM
机器之心

18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集

目前的视频编辑算法主要分为两种:一种是利用 DDIM-Inversion 完成视频编辑,另一种是利用训练好的编辑模型。 然而,前者在视频的一致性和文本对齐方面存在较大缺陷;后者由于缺乏高质量的视频编辑对,难以获得理想的编辑模型。 为了解决视频编辑模型缺乏训练数据的问题,本文作者(来自香港中文大学、香港理工大学、清华大学等高校和云天励飞)提出了一个名为 Señorita-2M 的数据集。
3/12/2025 9:40:28 AM
机器之心

稚晖君机器人“葡萄缝针”神技再现江湖,这次是人形的!骑自行车惊呆众人:又抽象又硬核

刚刚! 鸽了两年之后,稚晖君罕见更新视频——上线号称史上最复杂项目灵犀X2,能够像人一样灵动地骑自行车。 评论区早已经是听取哇声一片。
3/11/2025 1:19:26 PM
量子位

DPG-Bench榜首!智谱开源文生图模型CogView4:支持中英文输入和生成,免费商用授权!

在图像生成技术的浪潮中,智谱开源再次引领潮流,推出了全新的文生图模型——CogView4。 这款模型不仅支持中英双语提示词输入,更擅长理解和遵循中文指令,让创意表达无界限。 尤为值得一提的是,CogView4开创了先河,成为首个能在画面中直接生成汉字的开源文生图模型,让文字与图像的融合更加自然流畅。
3/11/2025 10:00:00 AM
AIGC Studio

哥大本科生靠AI横扫硅谷大厂offer,学校震怒!预言码农两年内淘汰准备退学

硅谷大型科技公司FAANG的面试,对不少人来说都是一场噩梦。 结果,哥大的一位大二学生Roy Lee,居然利用AI,顺利斩获了亚马逊、Meta和TikTok的offer,获得了直通梦中情厂的实习机会! 这个消息一出,震惊了不少人。
3/11/2025 9:40:00 AM
新智元