AI在线 AI在线

资讯列表

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

近日,由清华大学、腾讯混元、斯坦福大学及卡耐基梅隆大学的研究团队联合发布了一项新评估基准 ——RBench-V,专门针对多模态大模型的视觉推理能力进行测试。 该基准的推出,旨在填补当前评估体系中对模型视觉输出能力的空白,以便更全面地了解现有模型的性能。 RBench-V 基准测试包含803道题目,涉及多个领域,包括几何与图论、力学与电磁学、多目标识别和路径规划等。
5/28/2025 12:01:20 PM
AI在线

谷歌皮查伊称艾维 “独一无二” AI 硬件合作引发科技热议

根据《商业内幕》的报道,OpenAI 近期与前 iPhone 设计师乔纳森・艾维(Jonathan Ive)达成了近65亿美元的收购交易,开启了一场备受瞩目的科技合作。 对此,Google 首席执行官桑达尔・皮查伊(Sundar Pichai)也发表了看法,加入了讨论的行列。 在科技行业,AI 技术的迅猛发展让各大巨头纷纷寻找顶尖人才,以便于在这个领域占据领先地位。
5/28/2025 12:01:20 PM
AI在线

人工智能助力:雀巢试点项目预计挽救 150 万顿食品浪费

随着人工智能技术的不断发展,越来越多的公司开始利用 AI 工具来减少食品浪费。 近日,全球食品巨头雀巢(Nestlé)参与了一项在英国开展的试点项目,该项目旨在通过实时监测和跟踪食品浪费情况,从而有效地 “设计出” 食品浪费。 在这项 AI 工具的初步试用中,雀巢一家工厂的可食用食品浪费量减少了87%。
5/28/2025 12:01:20 PM
AI在线

最新研究,AI可能已经在缩小科技行业的入门级工作岗位

最近,随着人工智能(AI)技术的不断进步,越来越多的人开始关注它对劳动市场的潜在影响。 根据世界经济论坛的一项调查,约有40% 的雇主计划裁减员工,借助 AI 来自动化某些任务。  图源备注:图片由AI生成,图片授权服务商MidjourneySignalFire 是一家数据驱动的风险投资公司,它通过分析 LinkedIn 上超过6亿员工和8000万公司的招聘动态,发现了一些关于 AI 对招聘影响的初步迹象。
5/28/2025 12:01:20 PM
AI在线

掘金发布MCP,AI生成前端项目一键部署

国内领先的程序员社区掘金近日推出了一项创新功能——MCP(Model Context Protocol),为开发者提供了一键将AI生成的前端项目部署至掘金平台的便捷工具。 MCP功能:简单高效的前端项目部署掘金的MCP功能主要针对HTML、CSS和JavaScript前端项目,允许开发者通过简单的Token配置,将AI生成的项目一键发布到掘金平台,免去了传统部署中复杂的服务器配置和托管流程。 开发者只需在掘金官网获取专属MCP Token(),并将其配置在支持MCP的AI开发工具(如Trae、Cursor、Windsurf、Chatwise或Raycast AI)中,即可通过一行命令完成项目部署。
5/28/2025 12:01:20 PM
AI在线

MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench

仅需一个强化学习(RL)框架,就能实现视觉任务大统一? 现有RL对推理和感知任务只能二选一,但“大模型六小强”之一MiniMax表示:我全都要! 最新开源V-Triune(视觉三重统一强化学习系统)框架,使VLM首次能够在单个后训练流程中,联合学习和掌握视觉推理和感知任务。
5/28/2025 11:55:56 AM

多模态模型具备“物理推理能力”了吗?新基准揭示:表现最好的GPT-o4 mini也远不及人类!

表现最好的GPT-o4 mini,物理推理能力也远不及人类! 就在最近,来自香港大学、密歇根大学等机构的研究人员补齐了现有评估体系中的一处关键空白——评估多模态模型是否具备“物理推理能力”。 物理推理,即模型在面对真实或拟真的物理情境时,能否综合利用视觉信息、物理常识、数学建模进行判断和预测,被认为是通向具身智能的关键能力。
5/28/2025 11:55:28 AM

全靠Claude4!30年FAANG老工程师:AI帮我解决了四年老bug

AI 就像一头野驴,跑起来就不停。 人类花了几百万年才走上食物链顶端,而大模型只用了不到十年时间,已经能把你和刘亦菲 P 进一张自拍了。 奥!
5/28/2025 11:49:52 AM

强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B

近期的推理大模型(LRMs)通过强化学习(RL)展现出强大的推理能力,但这些改进主要体现在短上下文推理任务中。 相比之下,如何通过强化学习扩展 LRMs 以有效处理和推理长上下文输入,仍然是一个尚未解决的关键挑战。 来自阿里巴巴通义实验室的团队首先形式化定义长上下文推理强化学习范式,并识别出其中的两个核心挑战:次优的训练效率与不稳定的优化过程。
5/28/2025 11:46:52 AM

开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

本文作者分别来自清华大学 CoAI 小组和墨尔本大学。 第一作者张哲昕为清华大学直博三年级学生,研究方向为大模型安全,主要合作者为孙玉豪,来自墨尔本大学,主要指导教师为清华大学王宏宁副教授与黄民烈教授。 基于开源模型继续在下游任务上使用私有下游数据进行微调,得到在下游任务表现更好的专有模型,已经成为了一类标准范式。
5/28/2025 11:46:18 AM

全球顶尖AI做物理,被人类按地摩擦?不懂推理大翻车,本科生碾压

大模型,真的懂物理推理吗? 就在刚刚,港大、密歇根大学、多伦多大学等机构的研究者用3000道物理题,给全球顶尖大模型来了一场大拷问。 结果,这些顶尖AI,毫无例外全部翻车了!
5/28/2025 11:44:24 AM

多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3%

多模态时代应如何评估模型的视觉输出能力? 来自清华大学、腾讯混元、斯坦福大学、卡耐基梅隆大学等顶尖机构的研究团队联合发布了RBench-V:一款针对大模型的视觉推理能力的新型基准测试。 过去的评估基准主要集中于评估多模态输入和纯文本推理过程。
5/28/2025 11:43:48 AM

GPA只有3.3,顶会一作两篇,成功杀进TOP 20 AI博士?小哥曝光关键秘诀

两篇顶会一作,在亚洲攻读硕士学位,2026年春季毕业。 这位网友表示,自己计划申请2026年秋季开学的博士项目。 他的条件是:本科GPA在3.2-3.3左右,不算很高,但有一些研究经验。
5/28/2025 11:43:06 AM

单卡即可微调大模型!内存占用仅1/8,性能依然拉满 | ICML 2025

诸如Qwen,GPT,DeepSeek R1等基础大模型已成为现代深度学习的基石。 然而,在应用于具体下游任务时,它们庞大的参数规模使得额外微调成本较高。 为了解决这一问题,近期的研究聚焦于低秩适应 (LoRA) 方法,通过保持基座模型参数冻结,仅对新增的小型轻量级适配器进行微调,从而降低微调成本。
5/28/2025 11:42:14 AM

Artificial Intelligence Helps: Nestlé Pilot Project Expected to Save 1.5 Million Meals from Food Waste

With the continuous development of artificial intelligence technology, an increasing number of companies are beginning to use AI tools to reduce food waste. Recently, Nestlé, a global food giant, participated in a pilot project conducted in the UK. This project aims to effectively "design out" food waste by real-time monitoring and tracking food waste situations.In the preliminary trial of this AI tool, the edible food waste at one of Nestlé's factories was reduced by 87%.
5/28/2025 11:01:30 AM
AI在线

Mistral Launches Agents API: Building Collaborative and Memorable AI Agents for Enterprises

Mistral AI has launched a new Agents API, designed to extend language models into intelligent agent systems for enterprise applications.This framework adds tools for task execution, context tracking, and agent orchestration to foundational language models, enabling multiple AI agents not only to execute tasks independently, but also to collaborate and integrate with external systems, creating complete business processes.Each agent can connect via connectors and the MCP (Model Context Protocol) tool to run Python scripts, perform web searches, generate images (powered by Black Forest Lab FLUX1.1[pro] Ultra), or extract documents from Mistral Cloud. As a standard protocol, MCP enables seamless connections between APIs, databases, and user data.In contrast to traditional chatbots, Agents API supports persistent context management. Even if interactions are interrupted or rolled back, the agent retains its state, enhancing system continuity and reliability.
5/28/2025 11:01:30 AM
AI在线

Trae International Version Launches Paid Subscription Model, First Month Pro Subscription Only $3 with Claude4 Support

Trae, an AI-driven integrated development environment (IDE) launched by ByteDance, has quickly gained prominence in the global developer community since its release on January 20, 2025, thanks to its powerful AI capabilities and seamless development experience. Recently, Trae's international version officially introduced a paid subscription plan, marking its transition from being completely free to a sustainable business model. This report, compiled by AIbase, provides an in-depth look at the details of Trae's international version paid strategy and its potential impact on developers based on the latest online information.First Month for $3, Enhanced with Claude4.
5/28/2025 11:01:29 AM
AI在线

WordPress Forms AI Core Team: 660 Plugins走向规范化发展

In response to the open-source community's enthusiastic experiments with AI, WordPress has chosen to get involved and consolidate efforts.Tuesday saw WordPress officially announce the establishment of a dedicated AI team aimed at coordinating and advancing AI product development within its developer community.
5/28/2025 11:01:29 AM
AI在线