AI在线 AI在线

测试

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

还没等到官宣,Deepseek-v3竟意外曝光了? 据Reddit网友爆料,v3已在API和网页上发布,一些榜单跑分也新鲜出炉。 在Aider多语言编程测试排行榜中,Deepseek-v3一举超越Claude 3.5 Sonnet,排在第1位的o1之后。
12/26/2024 2:42:23 PM
量子位

时序预测再出新范式!华东师大提出DUET:「双向聚类」新设计,性能刷新SOTA!| KDD 2025

多变量时间序列预测(MTSF)在金融投资、能源管理、天气预测和交通优化等领域具有重要应用。 然而,现实中的时间序列通常面临两大挑战:1. 时间模式的异质性,即由于外部因素的影响,真实时间序列往往表现出非平稳性(Temporal Distribution Shift, TDS),导致其分布和模式发生显著变化;2.
12/23/2024 3:30:00 PM
新智元

OpenAI o1是真有实力!港大权威AB测试,国家队奥数题照样拿下

国际奥数题手到擒来,OpenAI o1是靠死记硬背还是真的实力超群? 近日,来自港大的研究人员对o1进行了严格的AB测试:论文地址:? 考两张卷子:一张是有可能提前背题的,另一张是不太可能提前背题的,两张卷子难度一致。
12/23/2024 8:40:00 AM
新智元

Kimi版o1实装上线,这里是我们的一手测试↑

Kimi新模型来袭,且发布即上线可用! 就在数学模型k0-math刚发布后没几天,视觉思考模型k1就来了,多项思考推理测试超越Open AI o1。 官方表示,基于强化学习,k1原生支持端到端图像理解和思维链技术。
12/17/2024 8:40:00 AM
量子位

GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题

在人工智能领域,我们一直以为顶尖的多模态大模型已经无所不能,GPT-4o在ASR(音频转文字)任务上已经达到了97%的正确率,更是凸显了强大的音频理解能力。 然而,最近一项来自香港中文大学、斯坦福大学、伯克利大学和耶鲁大学的研究成果却彻底颠覆了这一认知——GPT-4o、Gemini 1.5 Pro、Reka Core等最先进的多模态大模型居然无法正确分辨明显不同的声音大小! 下面是一个例子:结果让人难以置信:这些顶尖的AI模型都未能准确判断出音量的差异!
12/11/2024 1:30:00 PM
新智元

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控:GUI智能体的黎明

Claude操控电脑,究竟可以做到什么程度? 新加坡国立大学团队在20多个场景下做了全面测试,其中最引人瞩目的是:AI可以自动玩手游清日常任务了! 研究中选用了米哈游《崩坏:星穹铁道》,可以跟它说”帮我完成今天的模拟宇宙”,然后,Claude就会立即依次打开游戏菜单、找到星穹里的”黄金花萼”、自动设置6次挑战次数:甚至还可以启动自动战斗、等待战斗结束后退出,这一套组合操作简直行云流水……而且注意哦,这不仅是传统游戏外挂那样的机械操作,Claude还能智能理解游戏规则和目标,根据界面上不同的任务进行调整。
11/25/2024 9:35:00 AM
量子位

o1不是唯一路径!MIT新研究:在测试时训练,模型推理能力最高升至5.8倍

o1不是通向大模型推理的唯一路径! MIT的新研究发现,在测试时对大模型进行训练,可以让推理水平大幅提升。 在挑战超难的ARC任务时,准确率最高可提升至原来的5.83倍。
11/12/2024 12:53:46 PM

OpenAI CEO 阿尔特曼预测 AGI 可在 5 年内实现,但短期社会影响不大

OpenAI CEO 萨姆・阿尔特曼(Sam Altman)一直对通用人工智能(AGI)充满热情,并表示公司正在积极追求这一雄心勃勃的目标。 在最近的一次 Reddit AMA 中,阿尔特曼声称,使用现有的硬件就有可能实现 AGI。 虽然他没有明确说明具体需要什么,但此前他曾表示,实现他的 AI 愿景需要 7 万亿美元和多年的时间来建造 36 个半导体工厂和更多的数据中心。
11/5/2024 5:47:58 PM
远洋

机器狗“登上”泰山:可负重运输货物、清理垃圾

AI在线从《泰山晚报》获悉,泰山文旅集团物业公司近期正在测试机器狗,并期望通过此次测试找到一条解决山岳型景区垃圾清运问题的好办法,解决人力运输的限制。目前,该机器狗正在测试阶段,可用来搬运货物、清运垃圾,已在泰山景区的台阶和山地路况进行了测试,有望提高当地的货物、垃圾运输效率。工作人员表示,这是该机器狗第一次来爬泰山、参与测试,只爬了山路的五分之一。
10/21/2024 3:04:09 PM
清源

「世界开源新王」Reflection 70B 跌落神坛?重测跑分暴跌实锤造假

「世界开源新王」Reflection 70B,才坐上王座没几天就被打假,跌落神坛了!甚至有人质疑,它莫不是套壳的 Sonnet 3.5?发布者 Matt Shumer 和 Sahil Chaudhary 经过一番挣扎,已经光速「滑跪」,po 出的复盘长文也是亮点满满。「开源新王」Reflection 70B,才发布一个月就跌落神坛了?9 月 5 日,Hyperwrite AI 联创兼 CEO Matt Shumer 在 X 上扔出一则爆炸性消息 ——用 Meta 的开源 Llama 3.1-70B,团队微调出了 R
10/7/2024 4:06:50 PM
清源

Nature观点,人工智能在医学中的测试一片混乱,应该怎么做?

编辑 | ScienceAI基于有限的临床数据,数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具,以及如何最好地进行测试。当 Devin Singh 还是一名儿科住院医师时,他曾在急诊室照顾过一个因长时间等待救治而心脏骤停的儿童。「我记得,当时我给这个病人做心肺复苏,感觉那个孩子快要死了。」他说。Singh 对孩子的死感到十分伤心,他曾想过,如果能缩短等待时间,是否就能避免这种情况。经历了这件事,他想,如果将自己的儿科专业知识与计算机科学结合起来,看看人工智能 (AI) 是否有助于缩短等待时间。Singh
8/22/2024 2:33:00 PM
ScienceAI

首批万人测试已招满,OpenAI 关闭 SearchGPT 候补名单

OpenAI 公司已经关闭 SearchGPT 候选名单,仅邀请 10000 人参与测试,并已经开始向未被选中参与测试的用户发送通知邮件。AI在线于 7 月也同样提交了候选申请,于 8 月 17 日收到来自 OpenAI 的邮件,表示感谢报名参加 SearchGPT,目前无法发出邀请,后续会进一步扩大邀请测试规模。SearchGPT 目前仅向少量用户开放,官方介绍为:“全新搜索功能原型,利用我们人工智能模型的优势,为您提供清晰、相关的快速答案”。SearchGPT 可以让用户用自然语言提问,并获得详细、易懂的答案,
8/20/2024 12:19:30 PM
故渊

Geekbench AI 性能跑分工具 1.0 发布,支持 PC 手机全平台

感谢Primate Labs 今日发布了 Geekbench AI 基准测试的第一个版本。虽然名称是新的,但该软件是 Geekbench ML 改名而来的。AI在线从 Primate Labs 官方博客获悉,Geekbench ML 包括计算机视觉和自然语言处理测试,已经进行了一段时间的预览。开发者意识到,ML(机器学习)这个术语并不太适合推广工具,取而代之的是更适合营销的 Geekbench AI(人工智能)测试。Geekbench AI 1.0 基准测试支持跨平台,但由于 AI 算法在不同平台上的表现可能截然不
8/16/2024 8:05:44 AM
汪淼

AI在用 | 微软总裁疯狂安利的AI小游戏,虐我千千万万遍

机器之能报道编辑:杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。   我们也欢迎读者投稿亲自实践的创新型用例。天啊噜,AI 真的成精了。最近,AI 生图真假难辨这事儿,闹得那叫一个沸沸扬扬。(查看详情,请移步:AI在用 | 三步速成AI美女,又被AI一秒打回原形)除了火爆全网的 AI 谷歌小姐姐,社交平台上又冒出了形形色色的 FLUX 生
8/13/2024 6:11:00 PM
机器之能

你能分辨 AI 生成的图片和真实照片吗?微软总裁挑战你的眼力

微软副董事长兼总裁布拉德・史密斯推出了一项趣味测试,挑战人们辨别 AI 生成图像和真实照片的能力。他在名为“真或假”网站上线了该测试,每个测试包含 15 张图片,玩家需要判断图片是 AI 生成的还是真实拍摄的。测试中的图片每次都会随机更换,因此玩家可以反复挑战,提高鉴别能力。虽然最初的几道题相对简单,但随着测试的进行,难度逐渐增加。尽管有些图片一眼就能看出真假,但 AI 生成图像的逼真度已经达到令人惊讶的水平。同时,现实世界中也存在许多奇特的场景,足以迷惑人们。经过多次尝试,笔者发现测试难度逐渐增加,前十题相对简单
8/6/2024 2:20:18 PM
远洋

Anthropic 基于 Claude 3.5 Sonnet 扩充 AI 开发工具:细化提示词、增强评估和测试

Anthropic 公司昨日(7 月 10 日)发布新闻稿,宣布推出了多项新工具,基于 Claude 3.5 Sonnet 大语言模型自动化、细化提示词(prompt)。AI在线附上完整演示视频如下: 增强开发环境,可生成提示Anthropic 控制面板新增“评估”(Evaluate)单元,借助 Claude 3.5 Sonnet 大语言模型,帮助开发者高效地生成、微调和测试提示(Prompt)。这些增强功能旨在改进语言模型对各种任务的响应,为使用 Claude 开发人工智能产品的企业提供宝贵的资源。开发者只需描述
7/11/2024 11:31:32 AM
故渊

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

编辑:桃子乔杨【新智元导读】LLM 能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主 Timothy Gowers 分享了实测 GPT-4o 的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连 Claude 3.5 也无法幸免。在经典的「狼-山羊-卷心菜」过河问题上,如今所有的 LLM 都失败了!几天前,菲尔兹奖得主、剑桥大学研究主任 Timothy Gowers 直接拿 GPT-4o 开刀,去解决动物过河难题。在此,他给出了一个新的基准 —— 废话比率(crapness ratio),即 L
6/30/2024 2:15:14 PM
远洋

研究称 GPT-4 通过了图灵测试,54% 的人将其误认为真人

感谢最新研究称,越来越多的人难以在图灵测试中区分 GPT-4 和人类。图源 Pexels据IT之家了解,“图灵测试”由计算机科学家艾伦・图灵在 1950 年提出,又被称为“模仿游戏”。测试的标准是机器能否像人类一样进行对话,让对方误以为其是真人。加州大学圣地亚哥分校的研究人员招募了 500 名参与者,让他们与四位“对话者”进行五分钟的交流,这四位“对话者”分别是真人、上世纪 60 年代的初代聊天机器人 ELIZA、以及驱动聊天机器人 ChatGPT 的 GPT-3.5 和 GPT-4。参与者在对话结束后需判断对方是
6/17/2024 2:51:16 PM
远洋