测试
摆脱编码器依赖!Encoder-free 3D多模态大模型,性能超越13B现有SOTA | 上海AI Lab港中文等团队新作
无编码器多模态大模型被拓展到3D领域——3D编码器的功能被融入LLM本身,无编码器3D LMM适应不同的点云分辨率,摆脱预训练编码器的依赖。 来自上海AI Lab、西北工业大学、香港中文大学、清华大学等提出ENEL,在预训练阶段探索了如何使用自监督损失将3D编码器的功能整合到LLM本身,在指令调优阶段提出了一种层次几何聚合策略,基于PointLLM首次全面研究了无编码器架构在3D多模态大模型中的潜力。 在Objaverse基准测试中,ENEL表现突出,性能上超越目前SOTA ShapeLLM-13B。
全球首测!OpenAI开源SWELancer,大模型冲击100万年薪
今天凌晨2点,OpenAI开源了一个全新评估大模型代码能力的测试基准——SWE-Lancer。 目前,测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified,但这两个有一个很大的局限性,主要针对孤立任务,很难反映现实中软件工程师的复杂情况。 例如,开发人员需处理全技术栈的工作,要考虑代码库间的复杂交互和权衡。
被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估
你以为你在打游戏,其实是在给模型做评测! 就在两天前,由UCSD、UC伯克利等机构联合组建的GameArena团队开发了一个实时Roblox游戏「AI Space Escape」(AI空间逃脱),提供了一种与AI互动的独特体验。 现在,你想要测试不同模型的性能对比,打着游戏就能把活儿给干了。
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
跟大模型说:要多想。 今年 1 月,DeepSeek R1 引爆了全球科技界,它创新的方法,大幅简化的算力需求撼动了英伟达万亿市值,更引发了全行业的反思。 在通往 AGI(通用人工智能)的路上,我们现在不必一味扩大算力规模,更高效的新方法带来了更多的创新可能。
28年AGI撞上数据墙,以后全靠测试时计算?CMU详解优化原理
2025年主导AI的将是第3代scaling law:测试时计算。 正如Michael Dell转述所言:第一代scaling:预训练像读大学第二代scaling:微调像读博士第三代scaling:测试时计算就像深度思考和推理近日,计算机强校CMU机器学习系,发表博客文章解释LLM测试时计算优化问题,特别是涉及到的元强化学习(meta-RL)问题。 文章亮点如下:监督学习只是在训练模型「答案是什么」,只要学习「如何解答」,模型泛化性会更好。
史上最难大模型测试集,千名专家铸成!没有模型得分超过10%,但DeepSeek-R1超o1
史上最难的大模型测试集来了! 包括o1在内,没有任何一个模型得分超过10%。 题目来自500多家机构的1000多名学者,最终入围的题目有3000多道,全部都是研究生及以上难度。
DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键
DeepSeek版o1,有消息了。 还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现与OpenAI o1的中档推理设置相当。 注意了,这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview(轻量预览版)。
让「幻觉」无处遁形!谷歌DeepMind全新基准,三代Gemini同台霸榜
大模型几乎成了工作、学习的必备助手,但其本质仍然只是一个统计模型,无论生成的内容再怎么流畅,也难改其胡说八道的老毛病。 在大部分应用场景下,用户也并不知道自己所提问的答案,也就不具备检查模型输出在「事实准确性」(Factuality)上的能力。 一般来说,关于「模型幻觉」的自动化评估研究可以分为两类:1、给定上下文(用户输入文档)的情况下,检查模型输出是否完全基于输入的内容,比如文本摘要任务;2、用户直接提出一些与「外部来源」(新闻)或「常识知识」相关的问题。
OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示
OpenAI的推理模型o1-preview最近展示了它不按常理出牌的能力。 o1-preview在与专用国际象棋引擎Stockfish比赛时,为了强行取得胜利,居然采用了入侵测试环境的卑劣手段。 而这一切都不需要任何对抗性提示。
Deepseek v3正式发布:用557.6万美金超越Claude 3.5 Sonnet的惊人杰作
2024年12月26日,DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3,每秒处理 60 个 token,比 V2 快 3 倍! MoE架构,6710 亿参数,激活 370 亿参数,训练基于 14.8 万亿高质量 token,完全开源,附送53页pdf技术论文主要看点1.DeepSeek-V3 采用了创新的知识蒸馏方法,将 DeepSeek R1 系列模型中的推理能力迁移到标准 LLM 中。 该方法巧妙地融合了 R1 的验证和反思模式,显著提高了 DeepSeek-V3 的推理性能,同时又保留了对输出风格和长度的控制2.首次在大规模模型上验证了 FP8 训练的可行性和有效性3.通过协同优化,有效克服了跨节点 MoE 训练中的通信瓶颈,使得计算与通信几乎完全重叠4.在 DeepSeek-V2 高效架构的基础上,DeepSeek-V3 引入无辅助损失的负载均衡策略和多标记预测(MTP)目标,不仅提升模型性能,还支持推理加速的预测解码5.仅耗费了 266.4万 H800 GPU 小时,就完成了对 14.8 万亿 token 的预训练。
Anthropic联创:Scaling Law没崩,但推理成天价!有了TTT,25年AI更加速
Scaling Law要撞墙了? Anthropic联创Jack Clark反驳了这一说法:绝非如此! 在他看来,目前的AI发展还远远没到极限,「所有告诉你AI进展正在放缓,或者Scaling Law正在撞墙的人,都是错误的。
Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet
还没等到官宣,Deepseek-v3竟意外曝光了? 据Reddit网友爆料,v3已在API和网页上发布,一些榜单跑分也新鲜出炉。 在Aider多语言编程测试排行榜中,Deepseek-v3一举超越Claude 3.5 Sonnet,排在第1位的o1之后。
时序预测再出新范式!华东师大提出DUET:「双向聚类」新设计,性能刷新SOTA!| KDD 2025
多变量时间序列预测(MTSF)在金融投资、能源管理、天气预测和交通优化等领域具有重要应用。 然而,现实中的时间序列通常面临两大挑战:1. 时间模式的异质性,即由于外部因素的影响,真实时间序列往往表现出非平稳性(Temporal Distribution Shift, TDS),导致其分布和模式发生显著变化;2.
OpenAI o1是真有实力!港大权威AB测试,国家队奥数题照样拿下
国际奥数题手到擒来,OpenAI o1是靠死记硬背还是真的实力超群? 近日,来自港大的研究人员对o1进行了严格的AB测试:论文地址:? 考两张卷子:一张是有可能提前背题的,另一张是不太可能提前背题的,两张卷子难度一致。
Kimi版o1实装上线,这里是我们的一手测试↑
Kimi新模型来袭,且发布即上线可用! 就在数学模型k0-math刚发布后没几天,视觉思考模型k1就来了,多项思考推理测试超越Open AI o1。 官方表示,基于强化学习,k1原生支持端到端图像理解和思维链技术。
GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题
在人工智能领域,我们一直以为顶尖的多模态大模型已经无所不能,GPT-4o在ASR(音频转文字)任务上已经达到了97%的正确率,更是凸显了强大的音频理解能力。 然而,最近一项来自香港中文大学、斯坦福大学、伯克利大学和耶鲁大学的研究成果却彻底颠覆了这一认知——GPT-4o、Gemini 1.5 Pro、Reka Core等最先进的多模态大模型居然无法正确分辨明显不同的声音大小! 下面是一个例子:结果让人难以置信:这些顶尖的AI模型都未能准确判断出音量的差异!
Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控:GUI智能体的黎明
Claude操控电脑,究竟可以做到什么程度? 新加坡国立大学团队在20多个场景下做了全面测试,其中最引人瞩目的是:AI可以自动玩手游清日常任务了! 研究中选用了米哈游《崩坏:星穹铁道》,可以跟它说”帮我完成今天的模拟宇宙”,然后,Claude就会立即依次打开游戏菜单、找到星穹里的”黄金花萼”、自动设置6次挑战次数:甚至还可以启动自动战斗、等待战斗结束后退出,这一套组合操作简直行云流水……而且注意哦,这不仅是传统游戏外挂那样的机械操作,Claude还能智能理解游戏规则和目标,根据界面上不同的任务进行调整。
o1不是唯一路径!MIT新研究:在测试时训练,模型推理能力最高升至5.8倍
o1不是通向大模型推理的唯一路径! MIT的新研究发现,在测试时对大模型进行训练,可以让推理水平大幅提升。 在挑战超难的ARC任务时,准确率最高可提升至原来的5.83倍。