
Stop Overthinking:LLM 高效推理全景综述——当大模型学会「少想多做
📌 核心问题:LLM 的「过度思考」困境
大语言模型(LLM)通过思维链(Chain-of-Thought, CoT)推理在数学、编程等复杂任务中取得了显著突破。OpenAI o1、DeepSeek-R1 等大推理模型(LRM)更是将 CoT 推理推向新高度——但代价也随之而来:更长的推理序列意味着更高的计算开销、更长的延迟、更多的 token 消耗。
这就是所谓的「过度思考现象」(Overthinking Phenomenon)。当你问 DeepSeek-R1「0.9 和 0.11 哪个大」,它会从十进制原理开始分析、转成百分数验证、在数轴上表示、再用减法确认——最终写出 600 多字才得出答案「0.9 更大」。QwQ-32B 同样如此,602 字、42 秒。正确但冗余。
在自动驾驶、实时交互助手等对延迟敏感的场景中,这种「过度思考」带来的效率问题尤为突出。Rice 大学的华人研究团队在 TMLR 2025 发表的这篇综述,首次系统性地梳理了 LLM 高效推理的研究进展。
📊 关键数据与实验发现
- LIMO 实验:仅用 817 个精选样本训练的模型,超越了使用 10 万+ 样本训练的模型——数据质量远比数量重要
- S2R 微调:3100 个初始化样本即可让模型具备自我验证和自我纠正能力,超越大量长 CoT 蒸馏数据训练的模型
- 过度思考分数优化:通过选择过度思考分数低的解决方案,模型性能提升 30%,同时计算开销降低 43%
- DeepSeek-R1 回答「0.9 vs 0.11」:616 字、19 秒;QwQ-32B:602 字、42 秒。人类只需 1 个字
🏗️ 技术架构:三大高效推理路径
路径一:基于模型的高效推理(Model-Based)
- RL 长度奖励:在强化学习奖励函数中加入长度惩罚项 R_length,引导模型在保证准确的同时减少 token 使用
- 可变长度 CoT 数据微调:训练数据同时包含完整推理链和简短高效路径,让模型学会灵活应对不同难度
- 知识蒸馏:将大模型的推理能力传递给小模型(SLM),包括混合蒸馏、反事实蒸馏、反馈驱动蒸馏等变体
路径二:基于推理输出的优化(Output-Based)
- 潜在推理技术:Coconut(逐步减少冗长)、CODI(自蒸馏压缩)、CCOT(CoT 压缩为潜在表征)、SoftCoT(小型辅助模型投射潜在思维)
- 动态推理:根据问题复杂度按需生成推理步骤,推测拒绝优化(Speculative Rejection)及时丢弃低质量路径
路径三:基于输入提示的引导(Input-Based)
- 长度约束提示:直接在 prompt 中要求控制推理长度,如「用不超过 10 个 token 回答」
- CoD(Chain of Draft):每步推理只保留最少草稿,最多 5 个单词
- 推理路由:RouteLLM 根据问题复杂性分配模型,简单问题用快速模型,复杂问题用强模型
🔑 关键洞察
💭 引发思考
这篇综述的价值不仅在于梳理了技术现状,更在于提出了一个根本性问题:我们是否在用「堆算力」的粗暴方式解决本可以用「巧设计」解决的问题?当行业追逐更大的模型、更长的上下文窗口、更多的推理 token 时,高效推理研究提醒我们——有时候,少即是多。
从工程实践角度看,高效推理技术的成熟将直接影响 AI Coding Agent 和 AI Agent 的落地成本。以 Harness Engineering 的视角来看,与其等待模型本身变得更「省」,不如通过环境设计(如推理路由、长度约束)来主动控制推理开销——这与「工程能力 > 模型能力」的理念不谋而合。
📚 相关阅读
- Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
- Awesome-Efficient-Reasoning-LLMs
- (arXiv:2505.02322)
- (arXiv:2503.22732)
逍遥云初 | 2026.05.30
推荐好物
优质精选以上为联盟推广链接,购买后作者可能获得佣金(不影响价格)
逍遥云初 · 2026-05-30
记录 · 思考 · 成长