主要观点总结
文章介绍了AI降低成本的研究进展,特别是从“思维链”到“草稿链”的推理范式转变。Zoom研究团队提出的“草稿链”方法试图通过模仿人类的简洁思维过程来提升AI的推理效率,从而降低成本。研究显示,“草稿链”可以大幅度减少Token的使用,同时保持较高的准确率。这一进步可能改变企业部署AI的成本,并对实时支持、教育和对话式AI等领域产生积极影响。
关键观点总结
关键观点1: “草稿链”(Chain-of-Draft, CoD)是一种全新的推理范式,旨在通过模仿人类的简洁思维过程来提升AI的推理效率,从而节省成本。
使用“草稿链”方法,相同的任务可以将Token使用减少80%,大幅度降低成本。
关键观点2: “草稿链”灵感来自人类的认知过程,鼓励模型生成极简的中间推理步骤,只捕捉解决问题的关键信息。
这一方法显著降低了计算成本和延迟,同时保持了与“思维链”相当的准确性。
关键观点3: 相比其他方法,“草稿链”在多种基准测试中表现出色,包括算术推理、常识推理和符号推理任务。
即使在复杂的任务中,“草稿链”也能保持较高的准确率和效率。
关键观点4: 企业部署AI的成本可能会因“草稿链”技术的应用而大幅降低。
例如,对于每月处理100万条推理查询的企业,“草稿链”可以将成本从3800美元降至760美元,每月节省超过3000美元。
关键观点5: 除了成本降低,“草稿链”还可能使AI驱动的应用程序更加响应迅速,对实时支持、教育和对话式AI等领域具有特别的价值。
然而,“草稿链”也有其局限性,对于某些需要反思、自我纠正或外部知识检索的任务可能效果较差。
正文
![]()
降低 AI 成本,依然是目前的一大难题。
两个月前 DeepSeek R1 横空出世,震惊所有人。除了成本巨低,大模型在回答问题时候显示的思维链 CoT 也功不可没。在 AI 领域,大规模语言模型(LLMs)已经展示了强大的推理能力。这些模型通常生成长长的「思维链(Chain-of-Thought, CoT)」来逐步推导答案,好处显而易见,问题是计算成本和延迟高。最近,Zoom 的研究团队提出了一种全新的推理范式——「草稿链(Chain-of-Draft, CoD)」,试图通过模仿人类的简洁思维过程,来提升 AI 的推理效率,从而节省成本。数据显示,相同的任务,使用 CoD 能将 Token 使用减少 80%,大幅度降低成本。成本更低,准确率却不低的 CoD,会成为大模型的下一个趋势吗?无论是 OpenAI 的 o1,还是 DeepSeek 的 R1,在使用「思维链」处理任务时都有出色表现,这个范式鼓励模型将问题分解成一步步的推导,类似于人类在纸上写下完整的解题过程。「尽管这一方法有效,但它在推理时需要大量的计算资源,导致输出冗长且延迟较高。」Zoom 研究人员指出,LLM 通常会在得出最终答案之前消耗大量 Token。在他们看来,人类通常解决问题的方式根本没有这么冗长,「我们依赖简洁的草稿或速记来捕捉必要的见解,而不做不必要的详细阐述。」受此启发,他们提出「草稿链」这一新范式,鼓励模型生成极简的中间推理步骤,只要捕捉解决问题的关键信息。
Zoom 华人团队发表「草稿链」研究论文 |图片来源:arXiv这一灵感来自人类的认知过程。因为在解决复杂任务时——无论是解决数学问题、撰写论文还是编程——人类通常只记录下有助于推进的关键信息。通过模仿这一行为,LLMs 可以专注于推进解决方案,而不受冗长推理的影响。其研究论文称,这一方法不仅减少了冗余,还显著降低了计算成本和延迟,同时保持了与「思维链」相当的准确性。用一个简单的算术题例子感受直接回答(标准)、「思维链」与「草稿链」的区别:问:杰森有 20 个棒棒糖。他给了丹尼一些棒棒糖。现在杰森有 12 个棒棒糖。杰森给了丹尼多少个棒棒糖?问:杰森有 20 个棒棒糖。他给了丹尼一些棒棒糖。现在杰森有 12 个棒棒糖。杰森给了丹尼多少个棒棒糖?2. 在给丹尼一些棒棒糖后,杰森现在有 12 个棒棒糖。3. 为了找出杰森给了丹尼多少个棒棒糖,我们需要计算最初的数量和剩余数量之间的差异。4. 我们可以设置一个简单的减法问题:最初的棒棒糖数 - 剩余的棒棒糖数 = 给丹尼的棒棒糖数5. 把数字带入:20 - 12 = 给丹尼的棒棒糖数问:杰森有 20 个棒棒糖。他给了丹尼一些棒棒糖。现在杰森有 12 个棒棒糖。杰森给了丹尼多少个棒棒糖?答:20 - x = 12;x = 20 - 12 = 8。#### 8在标准的直接回答中,模型直接输出答案「8」,没有任何推理过程。虽然答案正确,但缺乏透明性,可解释性不强,且在多步推理任务中容易出错。「思维链」则生成了冗长的推理。相比之下,「草稿链」的推理被简化为一个简洁的方程,答案应放在响应的结尾,并使用分隔符「####」,减少了 Token 数,同时保持透明性和正确性。为了评估「草稿链」的有效性,Zoom 的研究团队进行了多种基准测试,包括算术推理、常识推理和符号推理任务。其实验结果称,草稿链在「准确性」上与思维链相当,甚至在某些任务中表现更好,同时显著减少了 Token 使用和延迟。
三种提示策略准确性与 Token 量对比 |图片来源:arXiv 论文以算术推理任务为例,使用草稿链的 GPT-4o 和 Claude 3.5 Sonnet 模型在 GSM8k 数据集上的准确率分别为 91.1% 和 91.4%,而思维链的准确率分别为 95.4% 和 95.8%。尽管草稿链的准确率略低,但它将 Token 使用减少了 80%,并将延迟降低了 76.2% 和 48.4%。在常识推理和符号推理任务中,他们称草稿链同样表现出色。例如,在掷硬币任务中,草稿链将 GPT-4o 的 Token 使用减少了 68%,而 Claude 3.5 Sonnet 的 Token 使用减少了 86%,同时保持了 100% 的准确率。Zoom 的研究人员还提到,与「草稿链」类似,去年圈内已有研究提出「简洁思维(Concise Thoughts,CCoT)和 Token 预算感知 LLM 推理,建议对推理步骤使用固定的全局 Token 预算。
然而,不同的任务可能需要不同的预算,以实现性能和成本之间的最佳平衡。此外,LLM 可能无法遵守不切实际的预算,通常生成的 Token 数量远超预期。即使是动态估算,也要额外的 LLM 调用,这增加了延迟。「相比之下,我们的方法采用每步预算,允许无限的推理步骤,使其更适应各种结构化推理技术。」研究团队称。但「草稿链」也有其局限性,对于需要大量反思、自我纠正或外部知识检索的任务,它可能效果较差。这项研究目前被讨论较多的用处在于,它可能改变企业部署 AI 的成本,让 AI 模型以更少的资源更便宜地思考,对成本敏感的场景尤其适用。例如,AI 研究人员 Ajith Prabhakar 分析认为,对于每月处理 100 万条推理查询的企业,「草稿链」可以将成本从 3800 美元(CoT)降至 760 美元,每月节省超过 3000 美元——在大规模应用时,节省更多。除了成本,「草稿链」可能使 AI 驱动的应用程序更加响应迅速,特别是在实时支持、教育和对话式 AI 等领域尤其有价值,因为即使是短暂的延迟也会严重影响用户体验。不过,值得注意的是,OpenAI 在 3 月 10 日发文称,他们相信「思维链(CoT)监控」可能是未来监督超人类模型的少数工具之一,「建议不要对前沿推理模型的 CoT 施加强烈的优化压力,保持 CoT 不受限制,以便进行监控。」因为模型通常会在「思维链」中非常清楚地陈述其意图,让人类可以看到模型的思维,从而检测模型一些不当行为,比如在编程任务中绕过测试、欺骗用户,或者在问题过于困难时放弃。
OpenAI 发文提到思维链监控的好处|图片来源:X无论如何,从「思维链」到「草稿链」,AI 推理范式还在不断进化。目前看来,随着应用场景扩展,在不谈 AI 安全时,成本与速度越来越成为绕不过的关键指标。而 CoD 的出现,证明了人们依然在探索如何在保持大模型进步的前提下,进一步降低成本,加速 AI 的普及。本文为极客公园原创文章,转载请联系极客君微信 geekparkGO机器人也能当摇子?众擎机器人再上新!大跳斧头帮舞蹈致敬星爷。