全新CoD颠覆推理范式，准确率接近但token消耗成倍降低

2025-03-10 06:29

如今，OpenAI o1 和 DeepSeek R1 等推理模型的发展，显著提升了思维链 (CoT) 之类的技术在大语言模型 (LLM) 推理任务上的表现。这种范式鼓励模型将问题分解为逐步探索，模仿人类的结构化推理过程。虽然这种方法有效，但它在推理时需要更多的计算资源，导致输出冗长且延迟更高。

这种冗长与人类通常解决问题的方式形成了鲜明的对比：我们依靠简洁的草稿或速记笔记来捕捉基本见解，而无需不必要的繁琐。

受这种差异的启发，来自美国 Zoom 视频通讯公司的研究团队提出了 Chain of Draft（CoD），这是一种新颖的提示策略，通过优先考虑效率和极简主义，更接近人类推理。

具体来讲，CoD 鼓励 LLM 在每个步骤生成简洁、信息密集的输出，而不是过度强调中间步骤。这种方法在不牺牲准确性的情况下减少了延迟和计算成本，使 LLM 更适合效率至上的实际应用。

论文标题：Chain of Draft: Thinking Faster by Writing Less
论文地址：https://arxiv.org/pdf/2502.18600

针对大语言模型传统推理范式中的效率瓶颈，该研究捕捉到了人类思维中「关键信息快照」的本质特征，提出了 CoD。为了评估 CoD 的有效性，研究团队在数学推理、常识推理和符号推理等需要多步推理的基准上进行了实验。

结果显示，在符号推理任务中，CoD 的信息密度达到标准 CoT 输出的 14.7 倍，同时显著减少了 token 的使用和延迟。

本文的研究贡献包括：

设计稀疏的推理草稿，仅需 7.6% 的 token 量即可完成等效推理深度，开创了认知启发的模型压缩新路径；
端到端推理延迟压缩与部署成本的降低，推理延迟从 0.9 秒压缩至 0.7 秒，实现「降本增效」的双重突破；
提出了新的大模型重构推理架构，为金融高频交易、自动驾驶决策等时延敏感型应用提供了可行性验证，标志着 LLM 从实验室模型向工业引擎的实质性跨越。

方法概述

该研究创新性地提出了 CoD。CoD 提示将推理过程浓缩为最小的抽象表示。推理过程被提炼为一个简洁的方程式，仅关注得出解决方案所需的基本数学运算。通过抽象出不相关的上下文细节，CoD 显著减少了 token 数量，同时保持了透明度和正确性。

CoD 基于认知科学中人类思维模式，其信息密度是传统 CoT 的 13.2 倍，在开发过程中，研究团队通过跨学科迭代：

首先基于思路链的结构化提示，构建端到端、简化认知等特征的思维稿；
继而设计思维稿对大模型驱动推理赋能，在 Claude 3.5 Sonnet 上实现算术推理 token 消耗从 189.4 骤降至 14.3（节省 92.4%）；
最终通过并行稀疏注意力框架（吞吐量 + 3.8 倍）和动态批处理技术（批次弹性扩展 1-128）完成工业级优化，实测端到端延迟从 3.1 秒压缩至 1.6 秒（降幅 48.4%），为高频金融交易等场景提供亚秒级（<0.5s）高效推理支持。

下图展示了 CoT 与 CoD 提示的区别：

实验结果

研究中较为全面、科学地评估其有效性和性能，设置了一系列严谨且针对性强的实验：基准测试实验、效率验证实验和成本效益实验。

基准测试实验选取了多个要求多步推理的基准测试，涵盖了数学推理、常识推理和符号推理等领域。
效率验证实验包括 token 消耗评估和推理延迟测试，其中 token 消耗评估包括精确测量 CoD 在各个基准测试任务中所使用的 token 数量，并与 CoT 进行对比；推理延迟测试通过 CoD 在不同任务中的端到端推理延迟，并与 CoT 进行比较。
成本效益实验基于 token 消耗和推理延迟等因素，计算 CoD 和 CoT 的单位推理成本。

推理试验数据集考虑以下五个数学应用题基准，(1) 数学应用题的 GSM8K 数据集，(2) 结构各异的数学应用题的 SVAMP 数据集，(3) 各种数学应用题的 ASDiv 数据集，(4) 代数应用题的 AQuA 数据集，以及 (5) MAWPS 基准。

研究中所提出的模型方法在 GSM8K 这一数学推理任务中，在 GPT-4o 下，CoD 的准确率达到了 91.1%，CoT 的准确率为 95.4%，CoT 的准确率略高于 CoD。但 Token 消耗方面，CoD 仅需 14.3 个 Token，相比传统模型的 161.2 个 Token。推理延迟也从传统模型的 4.2 秒大幅压缩至 1.0 秒，降低了 76.2%。

对于 Claude 3.5 Sonnet，CoD 和 CoT 的准确率表现相近。在 Token 消耗方面，CoD 相较于 CoT 下降了 79.1%，推理速度提升至 1.6 秒，延迟降低了 48.4%。这表明 CoD 在保证较高准确率的同时，极大地提升了推理效率，减少了计算资源的消耗。

对于常识推理任务（下表 2 日期理解），在 GPT-4o 下，CoD 的准确率为 88.1%，低于 CoT 的 90.2%。Token 消耗上，CoD 为 30.2 个 Token，CoT 则达到 75.7 个 Token，节省了 60.1% 的 Token，时间也从 1.7 秒降低到 1.3 秒。

对于 Claude 3.5 Sonnet，CoD 的准确率高达 89.7%，高于 CoT 的 87.0%，而 token 消耗相较于 CoT 下降了 82.0%，推理时间从 3.2 秒减少到 1.4 秒。CoD 在常识推理任务中同样展现出高效性和准确性，能够更快速且精准地处理常识性问题。

在原始 CoT 研究论文中提出的硬币翻转推理任务框架下，研究者要求大语言模型（LLM）根据一系列抛硬币操作序列预测最终硬币的正反面状态。由于该研究的原始实验数据集尚未开源，本研究严格遵循其方法论复现了包含 250 个测试样本的基准数据集。研究人员按照相同的设计合成了一个包含 250 个示例的测试集，基于 NameDataset 数据集，从美国地区排名前 1000 的名字中随机选择 4 个，并随机决定是否对每个名字抛硬币。评估数据的示例如下所示。

GPT-4o 和 Claude 3.5 Sonnet 的测试结果如表 4 所示。在标准提示方式下，这两个模型的准确率分别为 73.2% 和 85.2%。不过当采用 CoT和 CoD提示策略时，两个模型均达到了 100% 的完美准确率。通过与 CoT 相比， CoD 显著减少了 token 使用量，对于 GPT-4o 减少了 68%，对于 Claude 3.5 Sonnet 则减少了 86%。

更多实验结果请参阅原论文。

Zoom 创始人谈视频会议未来：数字人“代劳”参会，本人可抽出时间陪伴家人

视频会议平台 Zoom 创始人袁征（Eric Yuan）日前接受外媒 The Verge 采访，谈到了视频会议这一新兴会议形式的未来发展。袁征先前在思科工作，后续创办了 Zoom，并意识到有机会使视频会议更加简单易用。而在当下，袁征希望 Zoom“不仅仅”是一个视频会议平台，而是在企业软件领域与微软、谷歌一较高下，力图把文档、邮件和其他生产力工具做得像“聊天平台”一样。现如今各行各业都在拥抱 AI，Zoom 也不例外，并在 AI 领域投入了巨资。袁征表示，AI 在工作中的一大好处，就是所有人都能创造一个“数字孪生”

6/3/2024 10:42:06 PM

清源

进我的收藏夹吃灰吧：大模型加速超全指南来了

2023 年，大型语言模型（LLM）以其强大的生成、理解、推理等能力而持续受到高度关注。然而，训练和部署 LLM 非常昂贵，需要大量的计算资源和内存，因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的方法。最近，一位名为 Theia Vogel 的博主整理撰写了一篇长文博客，对加速 LLM 推理的方法进行了全面的总结，对各种方法展开了详细的介绍，值得 LLM 研究人员收藏查阅。以下是博客原文内容。之前，我使用经典的自回归采样器手动制作了一个 transformer，大致如下：这种推理方法很优雅，是 LL

2/15/2024 2:54:00 PM

机器之心

美警使用 AI 工具写文书：8 秒生成犯罪现场报告，竟比人脑回忆还准

美国警察开始使用人工智能工具 Draft One 辅助文书工作，犯罪报告秒生成，比人脑回忆更准确。三百六十行，行行用 AI——AI 可以用来协助警务工作了，最近，由 GPT-4 支持的人工智能开始用于撰写犯罪报告和归档文书。今年 4 月，Axon 推出了一款名为 Draft One 的新工具，Draft One 可以转录执法记录仪中的音频，并自动转变成一份警务报告。Draft One 使用和 ChatGPT 相同的人工智能生成模型，云服务则由微软提供。Draft One 的推出很快受到了警务人员的欢迎，因为琐碎的数

8/31/2024 1:48:50 PM

清源

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

全新CoD颠覆推理范式，准确率接近但token消耗成倍降低

相关资讯

Zoom 创始人谈视频会议未来：数字人“代劳”参会，本人可抽出时间陪伴家人

进我的收藏夹吃灰吧：大模型加速超全指南来了

美警使用 AI 工具写文书：8 秒生成犯罪现场报告，竟比人脑回忆还准