AI在线 AI在线

资讯列表

​新测试挑战 AI 智能水平:ARC-AGI-2 让顶尖模型碰壁

近日,Arc Prize 基金会发布了一项全新的测试 ——ARC-AGI-2,旨在测量人工智能(AI)模型的通用智能水平。 该基金会由著名 AI 研究者 François Chollet 共同创立。 根据基金会的博客,这项新测试对大多数领先的 AI 模型提出了严峻挑战。
3/25/2025 10:06:00 AM
AI在线

阿里推出全新多模态模型 Qwen2.5-VL-32B:兼顾视觉语言与数学推理

在人工智能领域,阿里巴巴再次带来了重磅消息。 近日,阿里开源了最新的多模态模型 ——Qwen2.5-VL-32B-Instruct。 这款新模型是 Qwen2.5系列中的一员,其他版本包括3B、7B 和72B,而32B 版本在保持性能的同时,更加注重便捷的本地运行体验。
3/25/2025 10:03:00 AM
AI在线

棋盘变战场,大模型却呆了?普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

当棋盘变成战场,当盟友暗藏心机,当谈判需要三十六计,AI 的智商令人叹息! 近日,来自普林斯顿和德州大学奥斯丁分校最新评测基准 SPIN-Bench,用一套 "组合拳" 暴击了大模型的软肋。 研究显示,即便是 o1、o3-mini、DeepSeek R1、GPT-4o、Claude 3.5 等顶尖大模型,在涉及战略规划和社会推理的复杂任务中集体 "自闭"。
3/25/2025 9:50:23 AM
机器之心

DeepSeek V3深夜低调升级,代码进化令人震惊,网友实测可媲美Claude 3.5/3.7 Sonnet

昨夜,DeepSeek V3 毫无征兆地来了一波更新,升级到了「DeepSeek-V3-0324」版本。 目前,新版本在 Hugging Face 上可以下载并部署。 Hugging Face 地址:,DeepSeek-V3-0324 没有公布详细的模型卡。
3/25/2025 9:48:22 AM
机器之心

“AI辅导2小时,成绩冲进全国前2%”,OpenAI总裁转发私立教学成果,网友:一年学费4万美元??

“用AI辅导功课,学生成绩提升至全国前2%的水平”。 美国得克萨斯州一所私立K12学校Alpha学校,最近传出了这样一则消息引起大量网友关注。 OpenAI总裁Greg Brockman下场转发:围绕个性化AI导师设计的学校取得了良好成果。
3/25/2025 9:47:03 AM
量子位

Google AI Studio 现可通过 ai.dev 域名直接访问

谷歌今日宣布,其备受开发者欢迎的在线平台 Google AI Studio 迎来重要更新,现已正式启用全新且更易于记忆的域名 ai.dev。 开发者可以通过此快捷地址轻松访问这一强大的工具,探索和构建各种生成式人工智能应用。 Google AI Studio 最初旨在为开发者提供一个无需复杂环境搭建即可快速上手体验和利用谷歌最新 AI 模型(如 Gemini 系列)的平台。
3/25/2025 9:45:00 AM
AI在线

​OpenAI 更新语音助手功能,让对话更自然流畅、减少打断频率

OpenAI 于本周一发布了其高级语音模式的更新,该功能允许用户与 ChatGPT 进行实时对话。 更新后的语音助手在交流中表现得更加人性化,并且减少了对用户的打断频率。 OpenAI 的后期培训研究员 Manuka Stratta 通过一段视频在公司官方社交媒体渠道上公布了这一消息。
3/25/2025 9:44:00 AM
AI在线

大神卡帕西亲自演绎零基础开发APP,ChatGPT四轮对话搞定,一小时即在手机运行

大神卡帕西带着他的教程又来了! 这次不是教学视频,而是手把手教你如何用大模型开发APP——他没有阅读任何文档,也没有在专门平台Swift编程过,在与ChatGPT仅四轮对话的指导下,成功在手机上运行上了。 ,时长00:24这是个用来减肥跟踪APP。
3/25/2025 9:43:03 AM
量子位

国产AI芯片崛起!消息称蚂蚁集团训练成本骤降20%,媲美英伟达

据彭博社援引知情人士报道,蚂蚁集团在人工智能领域取得了重大突破,通过采用阿里巴巴和华为生产的中国芯片,成功将AI模型的训练成本削减了20%。 这一消息无疑为中国在关键技术领域的自主可控注入了新的动力。 报道进一步指出,蚂蚁集团的内部测试显示,这些中国制造的AI芯片在性能上能够与行业领导者英伟达的同类产品相媲美。
3/25/2025 9:39:00 AM
AI在线

一文看懂多模态思维链DeepSeek V3“小版本升级”实测堪比V3.5,非推理模型也有“啊哈时刻”,7米甘蔗过2米门想通了

DeepSeek V3升级了,新版本V3-0324。 官方轻描淡写只说是“小版本升级”,但很多人实测下来可一点也不小。 把流行的小球弹跳测试,提升难度到4维空间超立方体也没问题。
3/25/2025 9:28:21 AM
量子位

GenAI如何重新定义亚太地区的零售银行业务

GenAI采用的现状包括GPT-4等尖端语言模型在内的GenAI最新进展,正使金融机构能够以新颖的方式利用AI的能力。 合成数据生成——即使用算法而非现实世界收集来创建数据——已成为关键推动因素,为多样化的银行业务需求提供可扩展、自动化的解决方案。 然而,IDC的《2024年数据与AI脉搏》研究显示,东南亚地区的AI采用情况参差不齐。
3/25/2025 9:28:04 AM
Deepak Ramanathan

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

此前开源家族视觉语言模型 Qwen2.5-VL 包括 3B、7B 和 72B 三种尺寸。这一次的 32B 版本进一步兼顾尺寸和性能,可在本地运行。
3/25/2025 9:26:54 AM
汪淼

32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强

就在DeepSeek-V3更新的同一夜,阿里通义千问Qwen又双叒叕一次梦幻联动了——发布Qwen2.5-VL-32B-Instruct。 此前开源家族视觉语言模型Qwen2.5-VL包括3B、7B和72B三种尺寸。 这一次的32B版本进一步兼顾尺寸和性能,可在本地运行。
3/25/2025 9:24:05 AM
量子位

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

由于发布时间太短,还没有正式测评结果,不过在开发者 Xeophon 的个人 Benchmark 上所有指标都有大提升,成为该测试下最好的非推理模型。
3/25/2025 9:14:35 AM
汪淼

AI引爆全美失业潮,12个月内接管所有代码!3亿岗位被取代,70%职业大换血

AI,正在改变生活。 LinkedIn的新研究显示,很大程度上因为AI,到2030年,大多数职业的70%技能将发生变化。 然而,更大的AI的冲击或许就要到来:AI永久性地改变就业市场,并带来大规模失业。
3/25/2025 9:12:53 AM
新智元

美国恐惧:冷战2.0将至,中国开源模型大爆炸临近!LeCun:DeepSeek只是卷王副产品

如今,美国已经开始陷入「冷战2.0焦虑」——我们的AI技术,恐怕已经落后于中国了? 甚至AI社区的不少人已经押注:接下来几个月,将有一大波中国开源AI模型的浪潮! 某AI大V如是说:一年前,没有人会预料到,在AI竞赛中,美国竟会被更强大的中国超越。
3/25/2025 9:08:41 AM
新智元

一文看懂多模态思维链

多模态思维链(MCoT)系统综述来了! 不仅阐释了与该领域相关的基本概念和定义,还包括详细的分类法、对不同应用中现有方法的分析、对当前挑战的洞察以及促进多模态推理发展的未来研究方向。 图片当下,传统思维链(CoT)已经让AI在文字推理上变得更聪明,比如一步步推导数学题的答案。
3/25/2025 9:06:11 AM
量子位

Nature:科研人员最爱AI工具大盘点!从推理到编程,哪款才是最佳助手?

几乎每周都有新的、令人影响深刻的AI工具发布,研究人员纷纷踊跃尝试。 从复杂的数学问题求解,到医学诊断中的精准分析,再到代码编写与论文创作,AI工具展现了巨大的潜力。 但市面上令人眼花缭乱的AI模型,究竟哪一款才是让科研工作者效率起飞的「梦中情模」,能助力科研突破,带来事半功倍的效果呢?
3/25/2025 9:04:55 AM
新智元