推理

英特尔至强6独享MRDIMM,内存带宽飙升,加速推理达2.4倍!

之前的文章中,有业者预测至强6性能核处理器每颗计算单元芯片中的内核数量为43,加上每个计算单元有两组双通道内存控制器各占一个网格,那么总共占用43 2=45个网格,可以由5×9的布局构成。 但这个假设有一个问题,要构成128核的6980P,三颗芯片只屏蔽1个内核,这良率要求比较高啊。 至今还未在公开渠道看到至强6性能核处理器的Die shot或架构图,但英特尔发布了晶圆照片作为宣传素材。

颠覆GPT!Meta推出大型概念模型LCM: 从“猜词”到“理解”

今天要跟大家分享一个来自Meta AI的重磅消息:他们开发了一种全新的语言模型——大型概念模型(LCM),它有可能会彻底改变我们对语言模型的理解! 现在市面上的语言模型,比如大家熟悉的GPT,虽然能写诗、写代码、聊天,但它们本质上还是一个字一个字地“猜”出来的。 想象一下,就像一个只会背诵但不懂意思的鹦鹉,虽然能流利地说话,但缺乏真正的理解。

阿尔特曼暗示 OpenAI 明日发布 o3,新一代 AI 推理王者模型

OpenAI 公司首席执行官山姆・阿尔特曼(Sam Altman)今天(12 月 20 日)在 X 平台发布推文,暗示将发布新一代推理 AI 模型 o3。

全面超越CoT!Meta田渊栋团队新作:连续思维链

比思维链更厉害的方法是什么? 答:连续思维链。 近日,Meta田渊栋团队提出了针对LLM推理任务的新范式:Coconut( Chain of Continuous Thought)。

推理水平对标OpenAI o1!阿里云通义开源最新推理模型QwQ

11月28日,阿里云通义团队发布全新AI推理模型QwQ-32B-Preview,并同步开源。 评测数据显示,预览版本的QwQ,已展现出研究生水平的科学推理能力,在数学和编程方面表现尤为出色,整体推理水平比肩OpenAI o1。 QwQ(Qwen with Questions)是通义千问Qwen大模型最新推出的实验性研究模型,也是阿里云首个开源的AI推理模型。

官宣开源 阿里云与清华大学共建AI大模型推理项目Mooncake

2024年6月,国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室(Machine Learning, AI, Big Data Systems Lab)联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。 通过使用以 KVCache 为中心的 PD 分离和以存换算架构,大幅提升大模型应用Kimi智能助手推理吞吐的同时有效降低了推理成本,自发布以来受到业界广泛关注。 近日,清华大学和研究组织9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。

上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

苹果研究人员质疑 AI 的推理能力:简单数学问题稍作改动就会答错

近年来,人工智能(AI)在各个领域取得了显著的进展,其中大型语言模型(LLM)能够生成人类水平的文本,甚至在某些任务上超越人类的表现。然而,研究人员对 LLM 的推理能力提出了质疑,他们发现这些模型在解决简单的数学问题时,只要稍加改动,就会犯错误,这表明它们可能并不具备真正的逻辑推理能力。图源 Pexels周四,苹果公司的一组研究人员发布了一篇名为《理解大型语言模型中数学推理的局限性》的论文,揭示 LLM 在解决数学问题时容易受到干扰。

谷歌追赶 OpenAI,加速推进会“思考”的 AI 通用推理模型

感谢彭博社昨日(10 月 2 日)报道,谷歌公司正在开发类人推理 AI,希望在进度方面追赶 OpenAI 公司的 o1 模型。OpenAI 最近为 ChatGPT 引入了 o1-preview 和 o1-mini 模型,可以模拟人类的思考模式,实现通用推理,让 AI 实现“思考”。AI在线援引彭博社报道,谷歌公司目前也在积极推进通用推理 AI 模型的落地,该 AI 模型更擅长处理数学和编程,不过消耗更多的处理能力和能源。知情人士称,与 OpenAI 一样,谷歌也在尝试使用一种名为“思维链提示”的技术来接近人类的推理

OpenAI o1 在医学领域的初步研究,我们离 AI 医生更近了吗?

编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力,突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出,成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好,但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内,例如知识、推理或安全,这使得在复杂的医学任务中对这些模型进行全面评估变得复杂。来自加州大学圣克鲁斯分校、爱丁堡大学和美国国立卫生研究院的研究人员评估了 OpenAI 的 o1 模型在医

潞晨科技尤洋:300 亿市值的野心之上,我在做哪些选择?

作者|朱可轩编辑|陈彩娴 作为2020年全球高性能计算领域在Google Scholar上引用次数最高的博士毕业生,尤洋曾被 UC Berkeley提名为ACM Doctoral Dissertation Award 候选人(81名UC Berkeley EECS 2020博士毕业生中选2人)。 同时,他也是世界上唯一一位 35 岁以下在 4 个顶会(AAAI, ACL, IPDPS, ICPP)上以领导者的身份(第一作者或通讯作者)获得 Best Paper/Distinguished Paper 的人。 2021 年 7月,尤洋创立潞晨科技,转眼间,已经走进第三个年头。

阿尔特曼称 o1 仅仅是“推理模型的 GPT-2”,黄仁勋表示“给你加速 50 倍”

AI 界最有影响力的两个人,同时出现在一场活动:OpenAI CEO 阿尔特曼,暗示了 o1 满血版将在接下来几个月发布。英伟达创始人黄仁勋,则表示新一代 Blackwell 架构 GPU 能给 o1 推理提速 50 倍。阿尔特曼把 o1 在推理模型里的地位比作语言模型中的 GPT-2 阶段。几年后人们将看到“推理模型的 GPT-4”,不过最近几个月就会有重大改进,新范式的进步曲线非常陡峭。L2“推理者”与 L1“聊天机器人”非常不同,大家还没找到该怎么用这些模型,我们也没决定该为 App 继续添加什么功能。不过最

易用性对齐 vLLM,推理效率提升超200%,这款国产加速框架什么来头?

一、行业背景2022 年 10 月,ChatGPT 的问世引爆了以大语言模型为代表的的 AI 浪潮,全球科技企业纷纷加入大语言模型的军备竞赛,大语言模型的数量、参数规模及计算需求呈指数级提升。大语言模型(Large Language Model,简称 LLM 大模型)指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大模型通常包含百亿至万亿个参数,训练时需要处理数万亿个 Token,这对显卡等算力提出了极高的要求,也带来了能源消耗的激增。据斯坦福人工智能研究所发布的《2023 年 AI

OpenAI o1 非 GPT-4o 直接进化,在成本与性能上妥协

9 月 14 日消息,OpenAI 已经推出了新模型 OpenAI o1 的两大变体 ——o1-preview 与 o1-mini,这两款模型都有许多值得深入探讨的内容。人工智能专家西蒙・威利森(Simon Willison)专门发文,深入剖析了这些新模型背后的设计理念与实现细节,揭示了它们在技术上的独特优势与不足。威利森表示,o1 并不是简单的 GPT-4o 直接升级版,而是在强化“推理”能力的同时,做出了成本与性能上的权衡。1. 训练思维链OpenAI 的声明是一个很好的起点:“我们研发了一系列新型人工智能模型

开源大模型新王 Reflection 70B 超越 GPT-4o:新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。新模型名为 Reflection 70B,使用一种全新训练技术,让 AI 学会在推理过程中纠正自己的错误和幻觉。比如最近流行的数 r 测试中,一开始它犯了和大多数模型一样的错误,但主动在 反思 标签中纠正了自己。在官方评测中,70B 模型全面超越最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特别是数学基准 GSM8K 上直接刷爆,得分 99.2%。这个结果也让 OpenAI 科学家、德扑

Cerebras 推出全球最快 AI 推理解决方案,速度是英伟达方案的 20 倍

Cerebras Systems 今日宣布推出 Cerebras Inference,官方称这是全球最快的 AI 推理解决方案。该新解决方案为 Llama 3.1 8B 提供每秒 1800 个 token,为 Llama 3.1 70B 提供每秒 450 个 token,速度是微软 Azure 等超大规模云中提供的基于英伟达 GPU 的 AI 推理解决方案的 20 倍。除了令人难以置信的性能之外,这款新型推理解决方案的定价也比流行的 GPU 云低得多,起价仅为每百万个 token 10 美分,从而为 AI 工作负载

智谱 AI 宣布 GLM-4-Flash 大模型免费开放:支持中文、英语、日语、韩语、等 26 种语言

智谱 AI 今日宣布,GLM-4-Flash 大模型免费开放,通过智谱 AI 大模型开放平台调用。GLM-4-Flash 适用于完成简单垂直、低成本、需要快速响应的任务,生成速度能达到 72.14 token/s,约等于 115 字符/s。GLM-4-Flash 具备多轮对话、网页浏览、Function Call(函数调用)和长文本推理(支持最大 128K 上下文)等功能,同时支持包括中文、英语、日语、韩语、德语在内的 26 种语言。官方表示,通过采用自适应权重量化、多种并行化方式、批处理策略以及投机采样等多种方法

Llama 8B 搜索 100 次超越 GPT-4o,推理 + 搜索即可提升性能

最新论文表明,LLM 等生成模型可以通过搜索来扩展,并实现非常显著的性能提升。另一个复现实验也发现,让参数量仅 8B 的 Llama 3.1 模型搜索 100 次,即可在 Python 代码生成任务上达到 GPT-4o 同等水平。强化学习先驱、加拿大阿尔伯塔大学 CS 系教授 Rich Sutton 曾在 2019 年写下一篇名为《The Bitter Lesson》的博文,成为 AI 领域的经典论述之一。甚至,Rich Sutton 在字里行间体现出的直觉已经颇有 Scaling Law 的意味。原文地址: /