测试

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

DeepSeek版o1,有消息了。 还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现与OpenAI o1的中档推理设置相当。 注意了,这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview(轻量预览版)。

让「幻觉」无处遁形!谷歌DeepMind全新基准,三代Gemini同台霸榜

大模型几乎成了工作、学习的必备助手,但其本质仍然只是一个统计模型,无论生成的内容再怎么流畅,也难改其胡说八道的老毛病。 在大部分应用场景下,用户也并不知道自己所提问的答案,也就不具备检查模型输出在「事实准确性」(Factuality)上的能力。 一般来说,关于「模型幻觉」的自动化评估研究可以分为两类:1、给定上下文(用户输入文档)的情况下,检查模型输出是否完全基于输入的内容,比如文本摘要任务;2、用户直接提出一些与「外部来源」(新闻)或「常识知识」相关的问题。

OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

OpenAI的推理模型o1-preview最近展示了它不按常理出牌的能力。 o1-preview在与专用国际象棋引擎Stockfish比赛时,为了强行取得胜利,居然采用了入侵测试环境的卑劣手段。 而这一切都不需要任何对抗性提示。

Deepseek v3正式发布:用557.6万美金超越Claude 3.5 Sonnet的惊人杰作

2024年12月26日,DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3,每秒处理 60 个 token,比 V2 快 3 倍! MoE架构,6710 亿参数,激活 370 亿参数,训练基于 14.8 万亿高质量 token,完全开源,附送53页pdf技术论文主要看点1.DeepSeek-V3 采用了创新的知识蒸馏方法,将 DeepSeek R1 系列模型中的推理能力迁移到标准 LLM 中。 该方法巧妙地融合了 R1 的验证和反思模式,显著提高了 DeepSeek-V3 的推理性能,同时又保留了对输出风格和长度的控制2.首次在大规模模型上验证了 FP8 训练的可行性和有效性3.通过协同优化,有效克服了跨节点 MoE 训练中的通信瓶颈,使得计算与通信几乎完全重叠4.在 DeepSeek-V2 高效架构的基础上,DeepSeek-V3 引入无辅助损失的负载均衡策略和多标记预测(MTP)目标,不仅提升模型性能,还支持推理加速的预测解码5.仅耗费了 266.4万 H800 GPU 小时,就完成了对 14.8 万亿 token 的预训练。

Anthropic联创:Scaling Law没崩,但推理成天价!有了TTT,25年AI更加速

Scaling Law要撞墙了? Anthropic联创Jack Clark反驳了这一说法:绝非如此! 在他看来,目前的AI发展还远远没到极限,「所有告诉你AI进展正在放缓,或者Scaling Law正在撞墙的人,都是错误的。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

还没等到官宣,Deepseek-v3竟意外曝光了? 据Reddit网友爆料,v3已在API和网页上发布,一些榜单跑分也新鲜出炉。 在Aider多语言编程测试排行榜中,Deepseek-v3一举超越Claude 3.5 Sonnet,排在第1位的o1之后。

时序预测再出新范式!华东师大提出DUET:「双向聚类」新设计,性能刷新SOTA!| KDD 2025

多变量时间序列预测(MTSF)在金融投资、能源管理、天气预测和交通优化等领域具有重要应用。 然而,现实中的时间序列通常面临两大挑战:1. 时间模式的异质性,即由于外部因素的影响,真实时间序列往往表现出非平稳性(Temporal Distribution Shift, TDS),导致其分布和模式发生显著变化;2.

OpenAI o1是真有实力!港大权威AB测试,国家队奥数题照样拿下

国际奥数题手到擒来,OpenAI o1是靠死记硬背还是真的实力超群? 近日,来自港大的研究人员对o1进行了严格的AB测试:论文地址:? 考两张卷子:一张是有可能提前背题的,另一张是不太可能提前背题的,两张卷子难度一致。

Kimi版o1实装上线,这里是我们的一手测试↑

Kimi新模型来袭,且发布即上线可用! 就在数学模型k0-math刚发布后没几天,视觉思考模型k1就来了,多项思考推理测试超越Open AI o1。 官方表示,基于强化学习,k1原生支持端到端图像理解和思维链技术。

GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题

在人工智能领域,我们一直以为顶尖的多模态大模型已经无所不能,GPT-4o在ASR(音频转文字)任务上已经达到了97%的正确率,更是凸显了强大的音频理解能力。 然而,最近一项来自香港中文大学、斯坦福大学、伯克利大学和耶鲁大学的研究成果却彻底颠覆了这一认知——GPT-4o、Gemini 1.5 Pro、Reka Core等最先进的多模态大模型居然无法正确分辨明显不同的声音大小! 下面是一个例子:结果让人难以置信:这些顶尖的AI模型都未能准确判断出音量的差异!

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控:GUI智能体的黎明

Claude操控电脑,究竟可以做到什么程度? 新加坡国立大学团队在20多个场景下做了全面测试,其中最引人瞩目的是:AI可以自动玩手游清日常任务了! 研究中选用了米哈游《崩坏:星穹铁道》,可以跟它说”帮我完成今天的模拟宇宙”,然后,Claude就会立即依次打开游戏菜单、找到星穹里的”黄金花萼”、自动设置6次挑战次数:甚至还可以启动自动战斗、等待战斗结束后退出,这一套组合操作简直行云流水……而且注意哦,这不仅是传统游戏外挂那样的机械操作,Claude还能智能理解游戏规则和目标,根据界面上不同的任务进行调整。

o1不是唯一路径!MIT新研究:在测试时训练,模型推理能力最高升至5.8倍

o1不是通向大模型推理的唯一路径! MIT的新研究发现,在测试时对大模型进行训练,可以让推理水平大幅提升。 在挑战超难的ARC任务时,准确率最高可提升至原来的5.83倍。

OpenAI CEO 阿尔特曼预测 AGI 可在 5 年内实现,但短期社会影响不大

OpenAI CEO 萨姆・阿尔特曼(Sam Altman)一直对通用人工智能(AGI)充满热情,并表示公司正在积极追求这一雄心勃勃的目标。 在最近的一次 Reddit AMA 中,阿尔特曼声称,使用现有的硬件就有可能实现 AGI。 虽然他没有明确说明具体需要什么,但此前他曾表示,实现他的 AI 愿景需要 7 万亿美元和多年的时间来建造 36 个半导体工厂和更多的数据中心。

机器狗“登上”泰山:可负重运输货物、清理垃圾

AI在线从《泰山晚报》获悉,泰山文旅集团物业公司近期正在测试机器狗,并期望通过此次测试找到一条解决山岳型景区垃圾清运问题的好办法,解决人力运输的限制。目前,该机器狗正在测试阶段,可用来搬运货物、清运垃圾,已在泰山景区的台阶和山地路况进行了测试,有望提高当地的货物、垃圾运输效率。工作人员表示,这是该机器狗第一次来爬泰山、参与测试,只爬了山路的五分之一。

「世界开源新王」Reflection 70B 跌落神坛?重测跑分暴跌实锤造假

「世界开源新王」Reflection 70B,才坐上王座没几天就被打假,跌落神坛了!甚至有人质疑,它莫不是套壳的 Sonnet 3.5?发布者 Matt Shumer 和 Sahil Chaudhary 经过一番挣扎,已经光速「滑跪」,po 出的复盘长文也是亮点满满。「开源新王」Reflection 70B,才发布一个月就跌落神坛了?9 月 5 日,Hyperwrite AI 联创兼 CEO Matt Shumer 在 X 上扔出一则爆炸性消息 ——用 Meta 的开源 Llama 3.1-70B,团队微调出了 R

Nature观点,人工智能在医学中的测试一片混乱,应该怎么做?

编辑 | ScienceAI基于有限的临床数据,数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具,以及如何最好地进行测试。当 Devin Singh 还是一名儿科住院医师时,他曾在急诊室照顾过一个因长时间等待救治而心脏骤停的儿童。「我记得,当时我给这个病人做心肺复苏,感觉那个孩子快要死了。」他说。Singh 对孩子的死感到十分伤心,他曾想过,如果能缩短等待时间,是否就能避免这种情况。经历了这件事,他想,如果将自己的儿科专业知识与计算机科学结合起来,看看人工智能 (AI) 是否有助于缩短等待时间。Singh

首批万人测试已招满,OpenAI 关闭 SearchGPT 候补名单

OpenAI 公司已经关闭 SearchGPT 候选名单,仅邀请 10000 人参与测试,并已经开始向未被选中参与测试的用户发送通知邮件。AI在线于 7 月也同样提交了候选申请,于 8 月 17 日收到来自 OpenAI 的邮件,表示感谢报名参加 SearchGPT,目前无法发出邀请,后续会进一步扩大邀请测试规模。SearchGPT 目前仅向少量用户开放,官方介绍为:“全新搜索功能原型,利用我们人工智能模型的优势,为您提供清晰、相关的快速答案”。SearchGPT 可以让用户用自然语言提问,并获得详细、易懂的答案,

Geekbench AI 性能跑分工具 1.0 发布,支持 PC 手机全平台

感谢Primate Labs 今日发布了 Geekbench AI 基准测试的第一个版本。虽然名称是新的,但该软件是 Geekbench ML 改名而来的。AI在线从 Primate Labs 官方博客获悉,Geekbench ML 包括计算机视觉和自然语言处理测试,已经进行了一段时间的预览。开发者意识到,ML(机器学习)这个术语并不太适合推广工具,取而代之的是更适合营销的 Geekbench AI(人工智能)测试。Geekbench AI 1.0 基准测试支持跨平台,但由于 AI 算法在不同平台上的表现可能截然不