逍遥云初

📌 核心问题：LLM 的「过度思考」困境

大语言模型（LLM）通过思维链（Chain-of-Thought, CoT）推理在数学、编程等复杂任务中取得了显著突破。OpenAI o1、DeepSeek-R1 等大推理模型（LRM）更是将 CoT 推理推向新高度——但代价也随之而来：更长的推理序列意味着更高的计算开销、更长的延迟、更多的 token 消耗。

这就是所谓的「过度思考现象」（Overthinking Phenomenon）。当你问 DeepSeek-R1「0.9 和 0.11 哪个大」，它会从十进制原理开始分析、转成百分数验证、在数轴上表示、再用减法确认——最终写出 600 多字才得出答案「0.9 更大」。QwQ-32B 同样如此，602 字、42 秒。正确但冗余。

在自动驾驶、实时交互助手等对延迟敏感的场景中，这种「过度思考」带来的效率问题尤为突出。Rice 大学的华人研究团队在 TMLR 2025 发表的这篇综述，首次系统性地梳理了 LLM 高效推理的研究进展。

✦

📊 关键数据与实验发现

LIMO 实验：仅用 817 个精选样本训练的模型，超越了使用 10 万+ 样本训练的模型——数据质量远比数量重要
S2R 微调：3100 个初始化样本即可让模型具备自我验证和自我纠正能力，超越大量长 CoT 蒸馏数据训练的模型
过度思考分数优化：通过选择过度思考分数低的解决方案，模型性能提升 30%，同时计算开销降低 43%
DeepSeek-R1 回答「0.9 vs 0.11」：616 字、19 秒；QwQ-32B：602 字、42 秒。人类只需 1 个字

✦

🏗️ 技术架构：三大高效推理路径

路径一：基于模型的高效推理（Model-Based）

RL 长度奖励：在强化学习奖励函数中加入长度惩罚项 R_length，引导模型在保证准确的同时减少 token 使用
可变长度 CoT 数据微调：训练数据同时包含完整推理链和简短高效路径，让模型学会灵活应对不同难度
知识蒸馏：将大模型的推理能力传递给小模型（SLM），包括混合蒸馏、反事实蒸馏、反馈驱动蒸馏等变体

路径二：基于推理输出的优化（Output-Based）

潜在推理技术：Coconut（逐步减少冗长）、CODI（自蒸馏压缩）、CCOT（CoT 压缩为潜在表征）、SoftCoT（小型辅助模型投射潜在思维）
动态推理：根据问题复杂度按需生成推理步骤，推测拒绝优化（Speculative Rejection）及时丢弃低质量路径

路径三：基于输入提示的引导（Input-Based）

长度约束提示：直接在 prompt 中要求控制推理长度，如「用不超过 10 个 token 回答」
CoD（Chain of Draft）：每步推理只保留最少草稿，最多 5 个单词
推理路由：RouteLLM 根据问题复杂性分配模型，简单问题用快速模型，复杂问题用强模型

✦

🔑 关键洞察

🔑

洞察一：推理效率 ≠ 推理能力的削弱传统观点认为「想得越多越准确」，但这篇综述揭示了一个反直觉的结论：过度思考不仅不能提升准确率，反而会拖累性能。选择过度思考分数低的方案，性能提升 30%，计算开销降低 43%。这意味着「少想」有时比「多想」更聪明。

🔑

洞察二：数据质量的杠杆效应被严重低估 LIMO 用 817 个精选样本超越了 10 万+ 样本的训练效果，S2R 用 3100 个样本实现了自我纠正能力。这颠覆了「数据越多越好」的惯性思维——在推理效率优化领域，精心策划的小数据集比海量低质数据更有效。

🔑

洞察三：高效推理是 Agent 规模化的前置条件当前 AI Agent 的核心瓶颈之一就是推理成本。当一个 Agent 系统需要调用 LLM 数十甚至上百次时，每次推理的效率直接决定了系统的可行性和经济性。高效推理不是锦上添花，而是 Agent 从实验室走向生产环境的必要条件。

🔑

洞察四：小模型 + 高效推理 = 边缘部署的新范式通过知识蒸馏和高效推理技术的结合，小语言模型（SLM）在资源受限环境中展现出强大潜力。Liquid AI 的 LFM2.5-1.2B-Thinking 已实现 1GB 以下的端侧推理，这为手机、IoT 设备上的 AI 推理打开了大门。

✦

💭 引发思考

这篇综述的价值不仅在于梳理了技术现状，更在于提出了一个根本性问题：我们是否在用「堆算力」的粗暴方式解决本可以用「巧设计」解决的问题？当行业追逐更大的模型、更长的上下文窗口、更多的推理 token 时，高效推理研究提醒我们——有时候，少即是多。

从工程实践角度看，高效推理技术的成熟将直接影响 AI Coding Agent 和 AI Agent 的落地成本。以 Harness Engineering 的视角来看，与其等待模型本身变得更「省」，不如通过环境设计（如推理路由、长度约束）来主动控制推理开销——这与「工程能力 > 模型能力」的理念不谋而合。

✦

📚 相关阅读

Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
Awesome-Efficient-Reasoning-LLMs
（arXiv:2505.02322）
（arXiv:2503.22732）

✦

逍遥云初 | 2026.05.30

Stop Overthinking：LLM 高效推理全景综述——当大模型学会「少想多做

📌 核心问题：LLM 的「过度思考」困境

📊 关键数据与实验发现

🏗️ 技术架构：三大高效推理路径

路径一：基于模型的高效推理（Model-Based）

路径二：基于推理输出的优化（Output-Based）

路径三：基于输入提示的引导（Input-Based）

🔑 关键洞察

💭 引发思考

📚 相关阅读

推荐好物

京东好物

AI领航·智慧未来

京东精选好物 1