AI在线 AI在线

模型

3D版DeepSeek卷起开源月:两大基础模型率先SOTA!又是VAST

3D生成版DeepSeek再上新高度! 国产、易用、性能强且开源——新模型一露面就刷新SOTA,并且第一时间加入开源全家桶。 顺时针转个圈圈给大家看,效果是这样:加上“皮肤”是这样:再来一个,效果是这样:肉眼可见,这次妥妥升级变成了更细节的细节控~以上效果,都来自3D大模型明星初创公司VAST,其刚刚上新的两个基础模型,TripoSG和TripoSF,为团队的最新研发成果。
3/31/2025 8:25:00 AM
量子位

马斯克xAI蛇吞𝕏:资本有了,数据有了,商业模式也有了

马斯克旗下两大公司正式合并! xAI以全股票交易的方式收购了X(推特),此次交易中xAI的估值为800亿美元,对X的估值为330亿美元(450亿美元资产减去120亿美元债务)。 马斯克自己在X上发帖宣布这一消息。
3/31/2025 8:15:00 AM
量子位

Claude团队开盒Transformer:AI大脑原来这样工作

大模型工作机制的黑盒,终于被Claude团队揭开了神秘面纱! 团队创造了一种解读大模型思考方式的新工具,就像给大模型做了个“脑部核磁”。 他们还发现,Claude在某些任务上具备长远规划能力,甚至还会为了迎合人类而编造推理过程。
3/31/2025 8:12:00 AM
量子位

17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤

AI社区掀起用大模型玩游戏之风! 例如国外知名博主让DeepSeek和Chatgpt下国际象棋的视频在Youtube上就获得百万播放,ARC Prize组织最近也发布了一个贪吃蛇LLM评测基准SnakeBench。 针对这一场景,来自港大、剑桥和北大的研究人员发布了一个更全面、客观可信的LLM评测基准:GameBoT。
3/31/2025 8:00:00 AM
量子位

港大开源博士级AI智能体,独立完成三篇算法研究,一站式科研6小时搞定

这三篇论文,出自同一AI之手。 随着人工智能技术的迅猛发展,OpenAI提出的五级模型(涵盖从对话系统到协作管理者)已成为行业发展的重要参考框架。 其中,“自主研究智能体”(Autonomous Research Agent)作为第三至第四阶段的核心技术,正受到全球范围内越来越多的关注。
3/31/2025 7:50:00 AM
量子位

专抓AI“看图说谎”,谷歌哥大用三类陷阱触发幻觉,打造可随技术发展动态演进的评估框架

幻觉(Hallucination),即生成事实错误或不一致的信息,已成为视觉-语言模型 (VLMs)可靠性面临的核心挑战。 随着VLMs在自动驾驶、医疗诊断等关键领域的广泛应用,幻觉问题因其潜在的重大后果而备受关注。 然而,当前针对幻觉问题的研究面临多重制约:图像数据集的有限性、缺乏针对多样化幻觉触发因素的综合评估体系,以及在复杂视觉问答任务中进行开放式评估的固有困难。
3/31/2025 7:40:00 AM
量子位

AI大模型看手相!图片视频加持深度思考,阿里QVQ-Max“神了神了”

阿里又发了个有意思的大模型——QVQ-Max,第一版视觉推理模型,对任意图像或视频都可以进行深度思考。 举个有趣的例子,上传一张你的手掌,再点击Thinking,QVQ-Max就可以给你看手相:可以看到,在深度思考过后,QVQ-Max就开始逐步分析手掌上的线条和其他特征。 包括心线、头线、生命线等主要线条的分析,以及戒指手指上的金戒指的象征意义。
3/31/2025 7:30:00 AM
量子位

OpenAI破大防,拒绝率从98%骤降2%!陈怡然团队提出全新思维链劫持攻击

随着通向通用人工智能(AGI)的进展,大语言模型正进化出复杂推理能力,衍生出所谓「大型推理模型」(Large Reasoning Models, LRMs)。 OpenAI 的o系列模型凭借接近人类的推理水准刷新了诸多基准,另一边新的模型DeepSeek-R1也以更低成本实现了与o系列相当的性能。 这些模型不仅能逐步推理复杂问题,还开始将思维链(Chain-of-Thought, CoT)用于安全审查,在回答用户请求前通过内部推理判断内容是否违规,这种思路其实为平衡实用性和安全性提供了一个很有前景方向。
3/28/2025 11:59:10 AM
新智元

阿里巴巴发布最新视觉推理模型 QVQ-Max

2025 年 3 月 28 日,阿里巴巴旗下的AI研究团队Qwen再次掀起波澜,于凌晨三点正式发布了其最新的视觉推理模型——QVQ-Max。 这一消息迅速在业界引发热烈讨论,众多科技爱好者和行业专家纷纷表达了对这一全新AI模型的期待与关注。 QVQ-Max:视觉与推理的突破性结合根据阿里巴巴Qwen团队的官方公告,QVQ-Max是一款仍在不断进化中的视觉推理模型。
3/28/2025 8:40:00 AM
AI在线

阿里通义千问 QwenQ-32B 上线 中科院科研项目大规模接入

近日,阿里巴巴宣布其最新的开源大模型 —— 通义千问 QwenQ-32B,已在多个中科院科研项目中得到广泛应用。 这一创新标志着人工智能在科研领域的进一步深入,尤其是在气候变化和水资源管理方面的潜力。 中国科学院国家天文台、青藏高原研究所和南海海洋研究所等单位,均已开始利用 QwenQ-32B 进行科研项目。
3/27/2025 5:56:00 PM
AI在线

AI “看图说话” 更懂细节!腾讯开源多模态理解技术HaploVL

3月27日,腾讯开源团队宣布推出了一项创新的多模态理解技术——HaploVL。 这一技术旨在通过单个Transformer架构实现高效的多模态融合,显著提升AI在视觉和语言交互中的表现,特别是在细粒度视觉理解任务上。 在人工智能领域,多模态大模型(LMMs)近年来迅速崛起,它们能够实现复杂的视觉-语言对话和交互。
3/27/2025 5:36:00 PM
AI在线

Agent太火!看这一篇综述,知识就不会学杂了丨华东师大&东华大学出品

火,Agent可太火了! 关于Agent的进展俯拾皆是,根本看不过来……看过来——这篇综述可能能帮你厘清很多问题:来自华东师大和东华大学的研究团队发表了“A Survey on the Optimization of Large Language Model-based Agents(大模型智能体的优化方法综述)”,首次从系统化视角对LLM智能体优化策略进行了全面梳理与分析。 论文将将现有方法划分为两大类:参数驱动的优化与参数无关的优化。
3/27/2025 1:30:57 PM
量子位

7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用

深夜重磅! 阿里发布并开源首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B,来了。 仅靠一个一体式模型,就能搞定文本、音频、图像、视频全模态,并实时生成文本和自然语音。
3/27/2025 1:23:39 PM
量子位

2025苹果AI学者名单公布,黄子琪、孔令东、北大吉嘉铭、清华顾煜贤等12位年轻华人入选

刚刚,苹果机器学习研究中心(Apple Machine Learning Research)正式公布了 2025 年 AI(人工智能)、ML(机器学习)领域获得博士生奖学金的「苹果学者」名单。 今年共有 21 位年轻学者获得了苹果学者计划的资助,华人占了一半多。 苹果博士奖学金旨在奖励和支持计算机科学与工程领域极具潜力的博士研究生开展研究,每年颁发一次,今年已是第六年。
3/27/2025 1:02:21 PM
机器之心

纯RGB输入,解决户外场景SLAM!误差降低至9.8%,港科广开源 | ICRA 2025

在自主驾驶、机器人导航、AR/VR等前沿应用中,Simultaneous Localization and Mapping (SLAM) 是核心技术之一。 现有基于3D高斯分布(3DGS)的SLAM方法虽在室内场景表现出色,但使用仅RGB输入来处理无界的户外场景仍然面临挑战:准确的深度和尺度估计困难,这影响了姿态精度和3DGS初始化图像重叠有限且视角单一,缺乏有效的约束,导致训练难以收敛为了解决上述挑战,港科广团队提出全新解决方案OpenGS-SLAM,仅凭RGB图像实现高精度定位与逼真场景重建。 论文链接:::,该方法采用了一个点图回归网络来生成帧间一致的点图,储存了来自多个标准视角的3D结构,包含了视角关系、2D到3D的对应关系和场景几何信息,使得相机位姿估计更加稳健,有效缓解了预训练深度网络的误差问题。
3/27/2025 10:54:06 AM
新智元

清华稀疏Attention,无需训练加速一切模型!

在当今各类大语言模型以及视频模型中,长序列场景越来越普遍,而 Attention 的计算复杂度随着序列长度呈平方增长,成为长序列任务下的主要计算瓶颈。 此前,清华大学陈键飞团队提出的即插即用量化的 SageAttention 系列工作已实现 3 倍加速于 FlashAttention,且在各类大模型上均保持了端到端的精度,已被业界和社区广泛使用。 为了进一步加速 Attention,清华大学陈键飞团队进一步提出了无需训练可直接使用的稀疏 Attention(SpargeAttn)可用来加速任意模型。
3/27/2025 9:47:23 AM
机器之心

阿里深夜开源Qwen2.5-Omni,7B参数完成看、听、说、写

3 月 27 日凌晨,阿里通义千问团队发布 Qwen2.5-Omni。 这是 Qwen 系列中全新的旗舰级多模态大模型,专为全面的多模式感知设计,可以无缝处理包括文本、图像、音频和视频的各种输入,同时支持流式的文本生成和自然语音合成输出。 从此以后,你可以像打电话或进行视频通话一样与 Qwen 聊天!
3/27/2025 9:40:59 AM
机器之心

Stable Diffusion变身3D神器!一个LoRA将2D图像转3D模型

在Stable Diffusion当中,只需加入一个LoRA就能根据图像创建3D模型了? 港科大(广州)与趣丸科技合作推出了全新三维生成大模型——Kiss3DGen,创新性地将3D生成与成熟的图像生成模型进行了对齐。 并且与主流2D扩散模型技术(如ControlNet、Flux-Redux)兼容协同,无需额外训练即可即插即用。
3/27/2025 9:26:30 AM
量子位