推理 - AI在线

英特尔至强6独享MRDIMM，内存带宽飙升，加速推理达2.4倍！

之前的文章中，有业者预测至强6性能核处理器每颗计算单元芯片中的内核数量为43，加上每个计算单元有两组双通道内存控制器各占一个网格，那么总共占用43 2=45个网格，可以由5×9的布局构成。但这个假设有一个问题，要构成128核的6980P，三颗芯片只屏蔽1个内核，这良率要求比较高啊。至今还未在公开渠道看到至强6性能核处理器的Die shot或架构图，但英特尔发布了晶圆照片作为宣传素材。

颠覆GPT！Meta推出大型概念模型LCM: 从“猜词”到“理解”

今天要跟大家分享一个来自Meta AI的重磅消息：他们开发了一种全新的语言模型——大型概念模型（LCM），它有可能会彻底改变我们对语言模型的理解！现在市面上的语言模型，比如大家熟悉的GPT，虽然能写诗、写代码、聊天，但它们本质上还是一个字一个字地“猜”出来的。想象一下，就像一个只会背诵但不懂意思的鹦鹉，虽然能流利地说话，但缺乏真正的理解。

阿尔特曼暗示 OpenAI 明日发布 o3，新一代 AI 推理王者模型

OpenAI 公司首席执行官山姆・阿尔特曼（Sam Altman）今天（12 月 20 日）在 X 平台发布推文，暗示将发布新一代推理 AI 模型 o3。

全面超越CoT！Meta田渊栋团队新作：连续思维链

比思维链更厉害的方法是什么？答：连续思维链。近日，Meta田渊栋团队提出了针对LLM推理任务的新范式：Coconut（ Chain of Continuous Thought）。

推理水平对标OpenAI o1！阿里云通义开源最新推理模型QwQ

11月28日，阿里云通义团队发布全新AI推理模型QwQ-32B-Preview，并同步开源。评测数据显示，预览版本的QwQ，已展现出研究生水平的科学推理能力，在数学和编程方面表现尤为出色，整体推理水平比肩OpenAI o1。 QwQ（Qwen with Questions）是通义千问Qwen大模型最新推出的实验性研究模型，也是阿里云首个开源的AI推理模型。

官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake

2024年6月，国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室（Machine Learning, AI, Big Data Systems Lab）联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。通过使用以 KVCache 为中心的 PD 分离和以存换算架构，大幅提升大模型应用Kimi智能助手推理吞吐的同时有效降低了推理成本，自发布以来受到业界广泛关注。近日，清华大学和研究组织9#AISoft，联合以阿里云为代表的多家企业和研究机构，正式开源大模型资源池化项目 Mooncake。

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

苹果研究人员质疑 AI 的推理能力：简单数学问题稍作改动就会答错

近年来，人工智能（AI）在各个领域取得了显著的进展，其中大型语言模型（LLM）能够生成人类水平的文本，甚至在某些任务上超越人类的表现。然而，研究人员对 LLM 的推理能力提出了质疑，他们发现这些模型在解决简单的数学问题时，只要稍加改动，就会犯错误，这表明它们可能并不具备真正的逻辑推理能力。图源 Pexels周四，苹果公司的一组研究人员发布了一篇名为《理解大型语言模型中数学推理的局限性》的论文，揭示 LLM 在解决数学问题时容易受到干扰。

谷歌追赶 OpenAI，加速推进会“思考”的 AI 通用推理模型

感谢彭博社昨日（10 月 2 日）报道，谷歌公司正在开发类人推理 AI，希望在进度方面追赶 OpenAI 公司的 o1 模型。OpenAI 最近为 ChatGPT 引入了 o1-preview 和 o1-mini 模型，可以模拟人类的思考模式，实现通用推理，让 AI 实现“思考”。AI在线援引彭博社报道，谷歌公司目前也在积极推进通用推理 AI 模型的落地，该 AI 模型更擅长处理数学和编程，不过消耗更多的处理能力和能源。知情人士称，与 OpenAI 一样，谷歌也在尝试使用一种名为“思维链提示”的技术来接近人类的推理

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力，突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出，成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好，但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内，例如知识、推理或安全，这使得在复杂的医学任务中对这些模型进行全面评估变得复杂。来自加州大学圣克鲁斯分校、爱丁堡大学和美国国立卫生研究院的研究人员评估了 OpenAI 的 o1 模型在医

潞晨科技尤洋：300 亿市值的野心之上，我在做哪些选择？

作者｜朱可轩编辑｜陈彩娴作为2020年全球高性能计算领域在Google Scholar上引用次数最高的博士毕业生，尤洋曾被 UC Berkeley提名为ACM Doctoral Dissertation Award 候选人（81名UC Berkeley EECS 2020博士毕业生中选2人）。同时，他也是世界上唯一一位 35 岁以下在 4 个顶会（AAAI, ACL, IPDPS, ICPP）上以领导者的身份（第一作者或通讯作者）获得 Best Paper/Distinguished Paper 的人。 2021 年 7月，尤洋创立潞晨科技，转眼间，已经走进第三个年头。

阿尔特曼称 o1 仅仅是“推理模型的 GPT-2”，黄仁勋表示“给你加速 50 倍”

AI 界最有影响力的两个人，同时出现在一场活动：OpenAI CEO 阿尔特曼，暗示了 o1 满血版将在接下来几个月发布。英伟达创始人黄仁勋，则表示新一代 Blackwell 架构 GPU 能给 o1 推理提速 50 倍。阿尔特曼把 o1 在推理模型里的地位比作语言模型中的 GPT-2 阶段。几年后人们将看到“推理模型的 GPT-4”，不过最近几个月就会有重大改进，新范式的进步曲线非常陡峭。L2“推理者”与 L1“聊天机器人”非常不同，大家还没找到该怎么用这些模型，我们也没决定该为 App 继续添加什么功能。不过最

易用性对齐 vLLM，推理效率提升超200%，这款国产加速框架什么来头？

一、行业背景2022 年 10 月，ChatGPT 的问世引爆了以大语言模型为代表的的 AI 浪潮，全球科技企业纷纷加入大语言模型的军备竞赛，大语言模型的数量、参数规模及计算需求呈指数级提升。大语言模型（Large Language Model，简称 LLM 大模型）指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。大模型通常包含百亿至万亿个参数，训练时需要处理数万亿个 Token，这对显卡等算力提出了极高的要求，也带来了能源消耗的激增。据斯坦福人工智能研究所发布的《2023 年 AI

OpenAI o1 非 GPT-4o 直接进化，在成本与性能上妥协

9 月 14 日消息，OpenAI 已经推出了新模型 OpenAI o1 的两大变体 ——o1-preview 与 o1-mini，这两款模型都有许多值得深入探讨的内容。人工智能专家西蒙・威利森（Simon Willison）专门发文，深入剖析了这些新模型背后的设计理念与实现细节，揭示了它们在技术上的独特优势与不足。威利森表示，o1 并不是简单的 GPT-4o 直接升级版，而是在强化“推理”能力的同时，做出了成本与性能上的权衡。1. 训练思维链OpenAI 的声明是一个很好的起点：“我们研发了一系列新型人工智能模型

开源大模型新王 Reflection 70B 超越 GPT-4o：新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

开源大模型王座突然易主，居然来自一家小创业团队，瞬间引爆业界。新模型名为 Reflection 70B，使用一种全新训练技术，让 AI 学会在推理过程中纠正自己的错误和幻觉。比如最近流行的数 r 测试中，一开始它犯了和大多数模型一样的错误，但主动在反思标签中纠正了自己。在官方评测中，70B 模型全面超越最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro，特别是数学基准 GSM8K 上直接刷爆，得分 99.2%。这个结果也让 OpenAI 科学家、德扑

Cerebras 推出全球最快 AI 推理解决方案，速度是英伟达方案的 20 倍

Cerebras Systems 今日宣布推出 Cerebras Inference，官方称这是全球最快的 AI 推理解决方案。该新解决方案为 Llama 3.1 8B 提供每秒 1800 个 token，为 Llama 3.1 70B 提供每秒 450 个 token，速度是微软 Azure 等超大规模云中提供的基于英伟达 GPU 的 AI 推理解决方案的 20 倍。除了令人难以置信的性能之外，这款新型推理解决方案的定价也比流行的 GPU 云低得多，起价仅为每百万个 token 10 美分，从而为 AI 工作负载

智谱 AI 宣布 GLM-4-Flash 大模型免费开放：支持中文、英语、日语、韩语、等 26 种语言

智谱 AI 今日宣布，GLM-4-Flash 大模型免费开放，通过智谱 AI 大模型开放平台调用。GLM-4-Flash 适用于完成简单垂直、低成本、需要快速响应的任务，生成速度能达到 72.14 token/s，约等于 115 字符/s。GLM-4-Flash 具备多轮对话、网页浏览、Function Call（函数调用）和长文本推理（支持最大 128K 上下文）等功能，同时支持包括中文、英语、日语、韩语、德语在内的 26 种语言。官方表示，通过采用自适应权重量化、多种并行化方式、批处理策略以及投机采样等多种方法

Llama 8B 搜索 100 次超越 GPT-4o，推理 + 搜索即可提升性能

最新论文表明，LLM 等生成模型可以通过搜索来扩展，并实现非常显著的性能提升。另一个复现实验也发现，让参数量仅 8B 的 Llama 3.1 模型搜索 100 次，即可在 Python 代码生成任务上达到 GPT-4o 同等水平。强化学习先驱、加拿大阿尔伯塔大学 CS 系教授 Rich Sutton 曾在 2019 年写下一篇名为《The Bitter Lesson》的博文，成为 AI 领域的经典论述之一。甚至，Rich Sutton 在字里行间体现出的直觉已经颇有 Scaling Law 的意味。原文地址： /

推理