资讯列表

分类

标签

新测试挑战 AI 智能水平：ARC-AGI-2 让顶尖模型碰壁

近日，Arc Prize 基金会发布了一项全新的测试 ——ARC-AGI-2，旨在测量人工智能（AI）模型的通用智能水平。该基金会由著名 AI 研究者 François Chollet 共同创立。根据基金会的博客，这项新测试对大多数领先的 AI 模型提出了严峻挑战。

3/25/2025 10:06:00 AM

AI在线

阿里推出全新多模态模型 Qwen2.5-VL-32B：兼顾视觉语言与数学推理

在人工智能领域，阿里巴巴再次带来了重磅消息。近日，阿里开源了最新的多模态模型 ——Qwen2.5-VL-32B-Instruct。这款新模型是 Qwen2.5系列中的一员，其他版本包括3B、7B 和72B，而32B 版本在保持性能的同时，更加注重便捷的本地运行体验。

3/25/2025 10:03:00 AM

AI在线

棋盘变战场，大模型却呆了？普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

当棋盘变成战场，当盟友暗藏心机，当谈判需要三十六计，AI 的智商令人叹息！近日，来自普林斯顿和德州大学奥斯丁分校最新评测基准 SPIN-Bench，用一套 "组合拳" 暴击了大模型的软肋。研究显示，即便是 o1、o3-mini、DeepSeek R1、GPT-4o、Claude 3.5 等顶尖大模型，在涉及战略规划和社会推理的复杂任务中集体 "自闭"。

3/25/2025 9:50:23 AM

机器之心

DeepSeek V3深夜低调升级，代码进化令人震惊，网友实测可媲美Claude 3.5/3.7 Sonnet

昨夜，DeepSeek V3 毫无征兆地来了一波更新，升级到了「DeepSeek-V3-0324」版本。目前，新版本在 Hugging Face 上可以下载并部署。 Hugging Face 地址：，DeepSeek-V3-0324 没有公布详细的模型卡。

3/25/2025 9:48:22 AM

机器之心

“AI辅导2小时，成绩冲进全国前2%”，OpenAI总裁转发私立教学成果，网友：一年学费4万美元？？

“用AI辅导功课，学生成绩提升至全国前2%的水平”。美国得克萨斯州一所私立K12学校Alpha学校，最近传出了这样一则消息引起大量网友关注。 OpenAI总裁Greg Brockman下场转发：围绕个性化AI导师设计的学校取得了良好成果。

3/25/2025 9:47:03 AM

量子位

Google AI Studio 现可通过 ai.dev 域名直接访问

谷歌今日宣布，其备受开发者欢迎的在线平台 Google AI Studio 迎来重要更新，现已正式启用全新且更易于记忆的域名 ai.dev。开发者可以通过此快捷地址轻松访问这一强大的工具，探索和构建各种生成式人工智能应用。 Google AI Studio 最初旨在为开发者提供一个无需复杂环境搭建即可快速上手体验和利用谷歌最新 AI 模型（如 Gemini 系列）的平台。

3/25/2025 9:45:00 AM

AI在线

OpenAI 更新语音助手功能，让对话更自然流畅、减少打断频率

OpenAI 于本周一发布了其高级语音模式的更新，该功能允许用户与 ChatGPT 进行实时对话。更新后的语音助手在交流中表现得更加人性化，并且减少了对用户的打断频率。 OpenAI 的后期培训研究员 Manuka Stratta 通过一段视频在公司官方社交媒体渠道上公布了这一消息。

3/25/2025 9:44:00 AM

AI在线

大神卡帕西亲自演绎零基础开发APP，ChatGPT四轮对话搞定，一小时即在手机运行

大神卡帕西带着他的教程又来了！这次不是教学视频，而是手把手教你如何用大模型开发APP——他没有阅读任何文档，也没有在专门平台Swift编程过，在与ChatGPT仅四轮对话的指导下，成功在手机上运行上了。，时长00:24这是个用来减肥跟踪APP。

3/25/2025 9:43:03 AM

量子位

国产AI芯片崛起！消息称蚂蚁集团训练成本骤降20%，媲美英伟达

据彭博社援引知情人士报道，蚂蚁集团在人工智能领域取得了重大突破，通过采用阿里巴巴和华为生产的中国芯片，成功将AI模型的训练成本削减了20%。这一消息无疑为中国在关键技术领域的自主可控注入了新的动力。报道进一步指出，蚂蚁集团的内部测试显示，这些中国制造的AI芯片在性能上能够与行业领导者英伟达的同类产品相媲美。

3/25/2025 9:39:00 AM

AI在线

一文看懂多模态思维链DeepSeek V3“小版本升级”实测堪比V3.5，非推理模型也有“啊哈时刻”，7米甘蔗过2米门想通了

DeepSeek V3升级了，新版本V3-0324。官方轻描淡写只说是“小版本升级”，但很多人实测下来可一点也不小。把流行的小球弹跳测试，提升难度到4维空间超立方体也没问题。

3/25/2025 9:28:21 AM

量子位

GenAI如何重新定义亚太地区的零售银行业务

GenAI采用的现状包括GPT-4等尖端语言模型在内的GenAI最新进展，正使金融机构能够以新颖的方式利用AI的能力。合成数据生成——即使用算法而非现实世界收集来创建数据——已成为关键推动因素，为多样化的银行业务需求提供可扩展、自动化的解决方案。然而，IDC的《2024年数据与AI脉搏》研究显示，东南亚地区的AI采用情况参差不齐。

3/25/2025 9:28:04 AM

Deepak Ramanathan