测试

Kimi版o1实装上线，这里是我们的一手测试↑
Kimi新模型来袭，且发布即上线可用！就在数学模型k0-math刚发布后没几天，视觉思考模型k1就来了，多项思考推理测试超越Open AI o1。官方表示，基于强化学习，k1原生支持端到端图像理解和思维链技术。
理论
- 974
- 0
量子位12月17日
GPT-4o再暴露「弱智」缺陷，大模型无一幸免！港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题
在人工智能领域，我们一直以为顶尖的多模态大模型已经无所不能，GPT-4o在ASR（音频转文字）任务上已经达到了97%的正确率，更是凸显了强大的音频理解能力。然而，最近一项来自香港中文大学、斯坦福大学、伯克利大学和耶鲁大学的研究成果却彻底颠覆了这一认知——GPT-4o、Gemini 1.5 Pro、Reka Core等最先进的多模态大模型居然无法正确分辨明显不同的声音大小！下面是一个例子：结果让…
理论
- 974
- 0
新智元12月11日
Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控：GUI智能体的黎明
Claude操控电脑，究竟可以做到什么程度？新加坡国立大学团队在20多个场景下做了全面测试，其中最引人瞩目的是：AI可以自动玩手游清日常任务了！研究中选用了米哈游《崩坏：星穹铁道》，可以跟它说”帮我完成今天的模拟宇宙”，然后，Claude就会立即依次打开游戏菜单、找到星穹里的”黄金花萼”、自动设置6次挑战次数：甚至还可以启动自动战斗、等待战斗结束后退出，这一套组合操作简直行云流水……而且注意哦…
理论
- 979
- 0
量子位11月25日
o1不是唯一路径！MIT新研究：在测试时训练，模型推理能力最高升至5.8倍
o1不是通向大模型推理的唯一路径！ MIT的新研究发现，在测试时对大模型进行训练，可以让推理水平大幅提升。在挑战超难的ARC任务时，准确率最高可提升至原来的5.83倍。
理论
- 968
- 0
admin11月12日
OpenAI CEO 阿尔特曼预测 AGI 可在 5 年内实现，但短期社会影响不大
OpenAI CEO 萨姆・阿尔特曼（Sam Altman）一直对通用人工智能（AGI）充满热情，并表示公司正在积极追求这一雄心勃勃的目标。在最近的一次 Reddit AMA 中，阿尔特曼声称，使用现有的硬件就有可能实现 AGI。虽然他没有明确说明具体需要什么，但此前他曾表示，实现他的 AI 愿景需要 7 万亿美元和多年的时间来建造 36 个半导体工厂和更多的数据中心。
应用
- 7
- 0
远洋11月5日
机器狗“登上”泰山：可负重运输货物、清理垃圾
AI在线从《泰山晚报》获悉，泰山文旅集团物业公司近期正在测试机器狗，并期望通过此次测试找到一条解决山岳型景区垃圾清运问题的好办法，解决人力运输的限制。目前，该机器狗正在测试阶段，可用来搬运货物、清运垃圾，已在泰山景区的台阶和山地路况进行了测试，有望提高当地的货物、垃圾运输效率。工作人员表示，这是该机器狗第一次来爬泰山、参与测试，只爬了山路的五分之一。
应用
- 12
- 0
清源10月21日
「世界开源新王」Reflection 70B 跌落神坛？重测跑分暴跌实锤造假
「世界开源新王」Reflection 70B，才坐上王座没几天就被打假，跌落神坛了！甚至有人质疑，它莫不是套壳的 Sonnet 3.5？发布者 Matt Shumer 和 Sahil Chaudhary 经过一番挣扎，已经光速「滑跪」，po 出的复盘长文也是亮点满满。「开源新王」Reflection 70B，才发布一个月就跌落神坛了？9 月 5 日，Hyperwrite AI 联创兼 CEO Ma…
应用
- 6
- 0
清源10月7日
Nature观点，人工智能在医学中的测试一片混乱，应该怎么做？
编辑 | ScienceAI基于有限的临床数据，数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具，以及如何最好地进行测试。当 Devin Singh 还是一名儿科住院医师时，他曾在急诊室照顾过一个因长时间等待救治而心脏骤停的儿童。「我记得，当时我给这个病人做心肺复苏，感觉那个孩子快要死了。」他说。Singh 对孩子的死感到十分伤心，他曾想过，如果能缩短等待时间，是否就能避免这种情况。经历…
理论
- 15
- 0
ScienceAI8月22日
首批万人测试已招满，OpenAI 关闭 SearchGPT 候补名单
OpenAI 公司已经关闭 SearchGPT 候选名单，仅邀请 10000 人参与测试，并已经开始向未被选中参与测试的用户发送通知邮件。AI在线于 7 月也同样提交了候选申请，于 8 月 17 日收到来自 OpenAI 的邮件，表示感谢报名参加 SearchGPT，目前无法发出邀请，后续会进一步扩大邀请测试规模。SearchGPT 目前仅向少量用户开放，官方介绍为：“全新搜索功能原型，利用我们人…
应用
- 19
- 0
故渊8月20日
Geekbench AI 性能跑分工具 1.0 发布，支持 PC 手机全平台
感谢Primate Labs 今日发布了 Geekbench AI 基准测试的第一个版本。虽然名称是新的，但该软件是 Geekbench ML 改名而来的。AI在线从 Primate Labs 官方博客获悉，Geekbench ML 包括计算机视觉和自然语言处理测试，已经进行了一段时间的预览。开发者意识到，ML（机器学习）这个术语并不太适合推广工具，取而代之的是更适合营销的 Geekbench A…
应用
- 24
- 0
汪淼8月16日
AI在用 | 微软总裁疯狂安利的AI小游戏，虐我千千万万遍
机器之能报道编辑：杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。天啊噜，AI 真的成精了。最近，AI 生图真假难辨这事儿，闹得那叫一个沸沸扬扬。（查看详情，请移步：AI在用 …
应用
- 6
- 0
机器之能8月13日
你能分辨 AI 生成的图片和真实照片吗？微软总裁挑战你的眼力
微软副董事长兼总裁布拉德・史密斯推出了一项趣味测试，挑战人们辨别 AI 生成图像和真实照片的能力。他在名为“真或假”网站上线了该测试，每个测试包含 15 张图片，玩家需要判断图片是 AI 生成的还是真实拍摄的。测试中的图片每次都会随机更换，因此玩家可以反复挑战，提高鉴别能力。虽然最初的几道题相对简单，但随着测试的进行，难度逐渐增加。尽管有些图片一眼就能看出真假，但 AI 生成图像的逼真度已经达到令…
应用
- 45
- 0
远洋8月6日
Anthropic 基于 Claude 3.5 Sonnet 扩充 AI 开发工具：细化提示词、增强评估和测试
Anthropic 公司昨日（7 月 10 日）发布新闻稿，宣布推出了多项新工具，基于 Claude 3.5 Sonnet 大语言模型自动化、细化提示词（prompt）。AI在线附上完整演示视频如下：增强开发环境，可生成提示Anthropic 控制面板新增“评估”（Evaluate）单元，借助 Claude 3.5 Sonnet 大语言模型，帮助开发者高效地生成、微调和测试提示（Prompt）。…
应用
- 33
- 0
故渊7月11日