推理

推理水平对标OpenAI o1！阿里云通义开源最新推理模型QwQ
11月28日，阿里云通义团队发布全新AI推理模型QwQ-32B-Preview，并同步开源。评测数据显示，预览版本的QwQ，已展现出研究生水平的科学推理能力，在数学和编程方面表现尤为出色，整体推理水平比肩OpenAI o1。 QwQ（Qwen with Questions）是通义千问Qwen大模型最新推出的实验性研究模型，也是阿里云首个开源的AI推理模型。
应用
- 976
- 0
新闻助手11月28日
官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake
2024年6月，国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室（Machine Learning, AI, Big Data Systems Lab）联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。通过使用以 KVCache 为中心的 PD 分离和以存换算架构，大幅提升大模型应用Kimi智能助手推理吞吐的同时有效降低了推理成本，自发布以来受到业界广泛关注。…
工程
- 978
- 0
新闻助手11月28日
上交大o1复现新突破：蒸馏超越原版，警示AI研发”捷径陷阱”
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。
工程
- 970
- 0
机器之心11月22日
苹果研究人员质疑 AI 的推理能力：简单数学问题稍作改动就会答错
近年来，人工智能（AI）在各个领域取得了显著的进展，其中大型语言模型（LLM）能够生成人类水平的文本，甚至在某些任务上超越人类的表现。然而，研究人员对 LLM 的推理能力提出了质疑，他们发现这些模型在解决简单的数学问题时，只要稍加改动，就会犯错误，这表明它们可能并不具备真正的逻辑推理能力。图源 Pexels周四，苹果公司的一组研究人员发布了一篇名为《理解大型语言模型中数学推理的局限性》的论文，揭示…
应用
- 7
- 0
远洋10月12日
谷歌追赶 OpenAI，加速推进会“思考”的 AI 通用推理模型
感谢彭博社昨日（10 月 2 日）报道，谷歌公司正在开发类人推理 AI，希望在进度方面追赶 OpenAI 公司的 o1 模型。OpenAI 最近为 ChatGPT 引入了 o1-preview 和 o1-mini 模型，可以模拟人类的思考模式，实现通用推理，让 AI 实现“思考”。AI在线援引彭博社报道，谷歌公司目前也在积极推进通用推理 AI 模型的落地，该 AI 模型更擅长处理数学和编程，不过消…
应用
- 12
- 0
故渊10月3日
OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？
编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力，突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出，成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好，但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内，例如知识、推理或安全，这使得在复杂的医学任务中对这些模型进行全面…
理论
- 12
- 0
ScienceAI9月27日
潞晨科技尤洋：300 亿市值的野心之上，我在做哪些选择？
作者｜朱可轩编辑｜陈彩娴作为2020年全球高性能计算领域在Google Scholar上引用次数最高的博士毕业生，尤洋曾被 UC Berkeley提名为ACM Doctoral Dissertation Award 候选人（81名UC Berkeley EECS 2020博士毕业生中选2人）。同时，他也是世界上唯一一位 35 岁以下在 4 个顶会（AAAI, ACL, IPDPS, ICPP）…
应用
- 972
- 0
朱可轩9月24日
阿尔特曼称 o1 仅仅是“推理模型的 GPT-2”，黄仁勋表示“给你加速 50 倍”
AI 界最有影响力的两个人，同时出现在一场活动：OpenAI CEO 阿尔特曼，暗示了 o1 满血版将在接下来几个月发布。英伟达创始人黄仁勋，则表示新一代 Blackwell 架构 GPU 能给 o1 推理提速 50 倍。阿尔特曼把 o1 在推理模型里的地位比作语言模型中的 GPT-2 阶段。几年后人们将看到“推理模型的 GPT-4”，不过最近几个月就会有重大改进，新范式的进步曲线非常陡峭。L2“…
应用
- 19
- 0
清源9月19日
易用性对齐 vLLM，推理效率提升超200%，这款国产加速框架什么来头？
一、行业背景2022 年 10 月，ChatGPT 的问世引爆了以大语言模型为代表的的 AI 浪潮，全球科技企业纷纷加入大语言模型的军备竞赛，大语言模型的数量、参数规模及计算需求呈指数级提升。大语言模型（Large Language Model，简称 LLM 大模型）指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。大模型通常包含百亿至万亿个参数，训练时需要处理数万亿…
应用
- 21
- 0
新闻助手9月18日
OpenAI o1 非 GPT-4o 直接进化，在成本与性能上妥协
9 月 14 日消息，OpenAI 已经推出了新模型 OpenAI o1 的两大变体 ——o1-preview 与 o1-mini，这两款模型都有许多值得深入探讨的内容。人工智能专家西蒙・威利森（Simon Willison）专门发文，深入剖析了这些新模型背后的设计理念与实现细节，揭示了它们在技术上的独特优势与不足。威利森表示，o1 并不是简单的 GPT-4o 直接升级版，而是在强化“推理”能力的…
应用
- 23
- 0
小小9月14日
开源大模型新王 Reflection 70B 超越 GPT-4o：新技术可纠正自己幻觉，数学 99.2 分刷爆测试集
开源大模型王座突然易主，居然来自一家小创业团队，瞬间引爆业界。新模型名为 Reflection 70B，使用一种全新训练技术，让 AI 学会在推理过程中纠正自己的错误和幻觉。比如最近流行的数 r 测试中，一开始它犯了和大多数模型一样的错误，但主动在反思标签中纠正了自己。在官方评测中，70B 模型全面超越最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemin…
应用
- 35
- 0
清源9月6日
Cerebras 推出全球最快 AI 推理解决方案，速度是英伟达方案的 20 倍
Cerebras Systems 今日宣布推出 Cerebras Inference，官方称这是全球最快的 AI 推理解决方案。该新解决方案为 Llama 3.1 8B 提供每秒 1800 个 token，为 Llama 3.1 70B 提供每秒 450 个 token，速度是微软 Azure 等超大规模云中提供的基于英伟达 GPU 的 AI 推理解决方案的 20 倍。除了令人难以置信的性能之外，…
应用
- 44
- 0
远洋8月28日
智谱 AI 宣布 GLM-4-Flash 大模型免费开放：支持中文、英语、日语、韩语、等 26 种语言
智谱 AI 今日宣布，GLM-4-Flash 大模型免费开放，通过智谱 AI 大模型开放平台调用。GLM-4-Flash 适用于完成简单垂直、低成本、需要快速响应的任务，生成速度能达到 72.14 token/s，约等于 115 字符/s。GLM-4-Flash 具备多轮对话、网页浏览、Function Call（函数调用）和长文本推理（支持最大 128K 上下文）等功能，同时支持包括中文、英语、…
应用
- 18
- 0
沛霖（实习）8月27日
Llama 8B 搜索 100 次超越 GPT-4o，推理 + 搜索即可提升性能
最新论文表明，LLM 等生成模型可以通过搜索来扩展，并实现非常显著的性能提升。另一个复现实验也发现，让参数量仅 8B 的 Llama 3.1 模型搜索 100 次，即可在 Python 代码生成任务上达到 GPT-4o 同等水平。强化学习先驱、加拿大阿尔伯塔大学 CS 系教授 Rich Sutton 曾在 2019 年写下一篇名为《The Bitter Lesson》的博文，成为 AI 领域的经典…
应用
- 17
- 0
问舟8月15日
消息称 OpenAI 公司 2024 年资金缺口达到 50 亿美元
科技媒体 The Information 昨日（7 月 24 日）发布博文，爆料称 OpenAI 目前用于 AI 推理的算力，预估相当于 35 万台包含英伟达 A100 芯片的服务器，其中约 29 万台用于 ChatGPT，而且近乎满负荷运行。报道称截至今年 3 月，OpenAI 公司花费近 40 亿美元使用微软服务器为 ChatGPT 运行推理工作负载；此外 OpenAI 今年训练 ChatGP…
应用
- 8
- 0
故渊7月25日
研究：生成式 AI 更像是记忆大师而非推理高手
生成式 AI 的迅猛发展和广泛应用引发了诸多担忧，从隐私安全到潜在的失业危机。虽然 AI 聊天机器人如 ChatGPT 和微软 Copilot 在短短时间内取得了惊人进步，能够写代码、纠错甚至挑战人类创意，但它们真的像表面看起来那么聪明吗？麻省理工学院计算机科学与人工智能实验室（CSAIL）的一项最新研究指出，这些强大的大型语言模型（LLM）似乎更依赖记忆而不是真正的推理能力。它们在熟悉的任务上表…
应用
- 48
- 0
远洋7月17日
将来职场更“卷”，黄仁勋：“multi-shot”AI 具备超强推理能力，可视为“员工”
英伟达首席执行官黄仁勋发表新言论，表达将来职场会更“卷”，具备推理能力的 AI 可以充当“员工”的角色，处理各种繁杂的任务，在某些领域甚至会超越人类。图源：WikiMedia黄仁勋表达 AI 将会极大地改变将来就业形势，随着 AI 的盛行，程序员这个岗亭可能会“与世长辞”。黄仁勋表达由于写代码即将被淘汰，推荐下一代在专业方面最好选择生物、教育、制造或农业等其他职业。IT之家附上视频如下：黄仁勋预测…
AI
- 7
- 0
故渊7月2日
ICML 2024｜Transformer究竟如何推理？基于样例还是基于条例
本文探究了 transformers 在做数学推理题目时究竟是采用 case-based reasoning 还是 rule-based reasoning
AI
- 33
- 0
机器之心6月29日
商汤 AI 办公小次序“Raccoon 智能帮忙”上线：提炼文章重点、生成图表
感谢商汤科技宣布，鉴于商汤“日日新 SenseNova”大模型才智开发的数据分析产品“办公小浣熊”今天正式上线小次序版 ——“Raccoon 智能帮忙”。官方表示，可在小次序中，直接插入微信聊天中的文件（xls / xlsx / csv / txt / json 等），智能帮忙可以提炼重点、生成各类图表。所有结果采用流式方式输出，“所见即所得”，可随时打断。“办公小浣熊”是鉴于商汤大语言模型的大模…
AI
- 7
- 0
沛霖（实习）6月24日
北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推理和操作
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文由 HMI Lab 完成。HMI Lab依托北京大学视频与视觉技…
AI
- 23
- 0
机器之心6月20日
两句话，让 LLM 逻辑推理瞬间瓦解！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
感谢IT之家网友刺客的线索投递！在基准尝试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，钻研机构 LAION 的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理成绩，揭示了 LLM 基准尝试的盲区。一道简单的逻辑成绩，竟让几乎所有的 LLM 全军覆没？对于人类来说，这个名为「爱丽丝梦游仙境」（AIW）的尝试并不算很难 ——「爱丽丝有 N 个弟兄…
AI
- 7
- 0
浩渺6月10日
3年16亿营收！云天励飞迎来业绩增长
今日，云天励飞发布公告，公司与德元方惠签署《AI算力经营合作框架协定》。德元方恵将向云天励飞购买AI训练及推理异构算力效劳，总算力规模约4000PFLOPS，该协定预计在现在三年效劳期内为云天励飞贡献约16亿的营收。奠定现在的业绩本原作为国内领先的人工智能公司，云天励飞一直积极建设算力基座，并且对外提供算力经营效劳。今年3月，云天励飞在发布会上公布了“1 3”业务布局，即基于1个算法芯片化平台，打…
应用
- 50
- 0
新闻助手6月7日
消息称“AI 教母”李飞飞正建立草创公司，开发可理解 3D 空间关系的 AI 系统
当地时间周六，据路透社援引 6 名知情人士消息，计算机科学家李飞飞正在建立一家草创公司。该公司旨在利用类似人类的视觉处理技能，使 AI 具备高级推理威力，有望成为 AI 技能的一次飞跃。IT之家注：李飞飞被广泛称为“AI 教母”，与通常用来指因 AI 技能突破而在 2018 年获得图灵奖的三位研究人员的“AI 教父”对应。这三名“AI 教父”则是杰弗里・辛顿、杨立昆、约书亚・本西奥。一位消息人士通…
AI
- 9
- 0
清源5月5日
商汤发布日日新 5.0 大模型：推理上下文窗口 200K，号称对标 GPT-4 Turbo
感谢4 月 23 日，商汤科技发布了日日新 5.0 大模型。据介绍，该模型接纳 MOE 混合专家架构，在知识、数学、推理和代码才能方面大幅提高。该模型鉴于超过 10TB tokens 训练，具备 200K 推理上下文窗口（IT之家注：相当于 36.5 万个汉字），推理时上下文窗口达到 200K 左右，更号称“全面对标 GPT-4 Turbo”。其供应自然语言处理、图片生成、自动化数据标注、自定义模…
AI
- 4
- 0
清源4月24日