AI在线 AI在线

模型

棋盘变战场,大模型却呆了?普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

当棋盘变成战场,当盟友暗藏心机,当谈判需要三十六计,AI 的智商令人叹息! 近日,来自普林斯顿和德州大学奥斯丁分校最新评测基准 SPIN-Bench,用一套 "组合拳" 暴击了大模型的软肋。 研究显示,即便是 o1、o3-mini、DeepSeek R1、GPT-4o、Claude 3.5 等顶尖大模型,在涉及战略规划和社会推理的复杂任务中集体 "自闭"。
3/25/2025 9:50:23 AM
机器之心

“AI辅导2小时,成绩冲进全国前2%”,OpenAI总裁转发私立教学成果,网友:一年学费4万美元??

“用AI辅导功课,学生成绩提升至全国前2%的水平”。 美国得克萨斯州一所私立K12学校Alpha学校,最近传出了这样一则消息引起大量网友关注。 OpenAI总裁Greg Brockman下场转发:围绕个性化AI导师设计的学校取得了良好成果。
3/25/2025 9:47:03 AM
量子位

一文看懂多模态思维链DeepSeek V3“小版本升级”实测堪比V3.5,非推理模型也有“啊哈时刻”,7米甘蔗过2米门想通了

DeepSeek V3升级了,新版本V3-0324。 官方轻描淡写只说是“小版本升级”,但很多人实测下来可一点也不小。 把流行的小球弹跳测试,提升难度到4维空间超立方体也没问题。
3/25/2025 9:28:21 AM
量子位

32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强

就在DeepSeek-V3更新的同一夜,阿里通义千问Qwen又双叒叕一次梦幻联动了——发布Qwen2.5-VL-32B-Instruct。 此前开源家族视觉语言模型Qwen2.5-VL包括3B、7B和72B三种尺寸。 这一次的32B版本进一步兼顾尺寸和性能,可在本地运行。
3/25/2025 9:24:05 AM
量子位

美国恐惧:冷战2.0将至,中国开源模型大爆炸临近!LeCun:DeepSeek只是卷王副产品

如今,美国已经开始陷入「冷战2.0焦虑」——我们的AI技术,恐怕已经落后于中国了? 甚至AI社区的不少人已经押注:接下来几个月,将有一大波中国开源AI模型的浪潮! 某AI大V如是说:一年前,没有人会预料到,在AI竞赛中,美国竟会被更强大的中国超越。
3/25/2025 9:08:41 AM
新智元

Nature:科研人员最爱AI工具大盘点!从推理到编程,哪款才是最佳助手?

几乎每周都有新的、令人影响深刻的AI工具发布,研究人员纷纷踊跃尝试。 从复杂的数学问题求解,到医学诊断中的精准分析,再到代码编写与论文创作,AI工具展现了巨大的潜力。 但市面上令人眼花缭乱的AI模型,究竟哪一款才是让科研工作者效率起飞的「梦中情模」,能助力科研突破,带来事半功倍的效果呢?
3/25/2025 9:04:55 AM
新智元

DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑

昨晚,DeepSeek-V3悄然升级! 新模型版本为DeepSeek-V3-0324,参数量为6850亿,相较上个版本参数增幅不大(6710亿)。 从发布时间和技术特点来看,DeepSeek-V3-0324,很可能是DeepSeek-R2的基础架构。
3/25/2025 9:03:00 AM
新智元

AI自我纠错,Diffusion超越自回归!质量提升55%,已达理论证据下界

如果大语言模型(LLMs)能够发现并纠正自己的错误,那岂不是很好? 而且,如果能够直接从预训练中实现这一点,而无需任何监督微调(SFT)或强化学习(RL),那会怎样呢? 最新提出的离散扩散模型,称为GIDD,它能够做到这一点。
3/24/2025 9:35:00 AM
新智元

2030年,AGI概率至少10%!AI范式转变快,谁能预测GenAI下一代?

AGI已经来了? 还是快来了? 还是说AGI也是一种「技术乌托邦」?
3/24/2025 9:30:00 AM
新智元

每天2小时成绩逆袭全美前2%!AI助教让学生不再内卷

每天只用2小时就能搞定繁重的学习任务,剩下时间开发自己的兴趣项目,考试成绩还提高了。 这样的学校你愿意尝试吗? 据福克斯新闻报道,德克萨斯州一家名为Alpha School的私立学校在引入AI「助教」后,学生的考试成绩蹭蹭上涨,提高到了全美国的前2%。
3/24/2025 9:12:00 AM
新智元

Idea撞车何恺明「分形生成模型」!速度领先10倍,性能更强

前不久,大神何恺明刚刚放出新作「分形生成模型」,递归调用原子生成模块,构建了新型的生成模型,形成了自相似的分形架构,将GenAI模型的模块化层次提升到全新的高度。 论文地址: 地址:,澳大利亚国立大学的研究人员提出了一个全新的图像生成模型ARINAR,在思想上与分形生成模型不谋而合,但是在性能和速度上都显著提升,base模型的FID从11.8提升到2.75,生成时间从2分钟降低到12秒! ARINAR不仅超越了之前的扩散模型,与目前表现最好的自回归模型MAR相比,ARINAR生成质量相当,速度是MAR的5倍。
3/24/2025 9:08:00 AM
新智元

硅谷投资人爆料:AI爆炸率先发生在中国!芯片扩大1万倍,AI逼近物理极限

如果AI系统能自己设计出更强大的AI,智能爆炸可能很快就要到来了! 而人类,会被AI迅速甩在后面。 最近,硅谷投资人、EverFi CEO兼创始人Tom Davidson等人发表了一篇长文硬核博客,详细讨论了智能爆炸(Intelligence explosion, IE)的类型以及对应的发生概率。
3/24/2025 8:55:00 AM
新智元

AI PS卷起来了!谷歌Gemini动嘴P图火出圈,马斯克Grok连夜上线图像编辑

Grok连夜上线图片编辑功能。 昨晚,Grok上线图片编辑功能,可以通过文字描述直接修改图片。 比如你可以上传一张个人证件照,「动动嘴」让Grok给你PS一套全新的西服。
3/24/2025 8:43:00 AM
新智元

数据越多越好?错了!关键在于如何“喂”给模型

咱们今天聊聊机器学习里的一个重点概念——特征工程。 我们人看东西、做判断,是不是得先抓住事物的关键特点? 比如说,你要判断一个苹果好不好吃,你会看它颜色、闻它香味、摸它硬度,甚至尝一口。
3/24/2025 6:40:00 AM
Python数智工坊

成效初显!基于DeepSeek强化学习的医疗VLM策略来了

编辑 | ScienceAI在人工智能跨界医疗的浪潮中,如何赋能视觉语言模型(VLM)去 “看懂” 多种类型的医学影像,并在疾病诊断、病灶分析等任务中给出可信解释,已成关键挑战。 近期,来自埃默里大学、南加州大学等机构的联合研究团队基于 DeepSeek 强化学习提出了一套医疗 VLM 策略,称之为 “Med-R1”,通过鼓励模型在 “推理过程” 上不断探索,大大提升了跨模态、跨任务的泛化能力。 本文将结合实验结果和推理案例,为大家展示 DeepSeek 在医疗 VLM 中的实战成效。
3/21/2025 2:05:00 PM
ScienceAI

13年后,AlexNet源代码终于公开:带注释的原版

想知道 AlexNet 2012 年的原始代码长什么样吗? 现在,机会来了! 刚刚,谷歌首席科学家 Jeff Dean 宣布,他们与计算机历史博物馆(CHM)合作,共同发布了 AlexNet 的源代码,并将长期保存这些代码。
3/21/2025 1:17:38 PM
机器之心

原有的模型评测基准OUT了!12岁高中生建立了一个网站, 让AI模型发起 Minecraft 挑战

编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)由于传统的AI 基准测试技术已被证明不够充分,AI 开发者开始采用更具创造性的方式来评估生成式 AI 模型的能力。 对于一组开发者来说,这就是微软旗下的沙盒建造游戏 Minecraft。 Minecraft Benchmark (或 MC-Bench)网站是合作开发的,目的是让人工智能模型在面对面的挑战中相互竞争,用 Minecraft 创作来回答提示。
3/21/2025 1:05:18 PM
言征

25万GPU,估值350亿美元冲刺IPO!财务定时炸弹,GenAI不祥之兆

美国云服务公司CoreWeave,已提交上市文件,即将IPO。 这是美国近期首个有意义的科技IPO,也是首个直接与AI热潮相关的IPO。 CoreWeave虽然有25万GPU,却频频受到质疑。
3/21/2025 12:56:44 PM
新智元