
RuscaRL:用评分标准脚手架打破 LLM 推理的探索瓶颈
📄 论文信息
论文:Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning
作者:Yang Zhou, Sunzhu Li, Shunyu Liu, Wenkai Fang, Kongcheng Zhang 等(浙江大学、Li Auto、南洋理工大学、香港中文大学、杭州城市大学)
会议:ICML(最新修订:2026-01-30)
代码:https://github.com/IANNXANG/RuscaRL
🎯 核心问题
强化学习(RL)已被证明能激发大语言模型的推理能力,DeepSeek-R1 的 RLVR(Reinforcement Learning with Verifiable Rewards)就是最佳例证。然而,RL 面临一个根本性的鸡生蛋困境:RL 需要从高质量样本中学习,但探索这些样本的能力又受限于模型自身的固有局限——探索不了的,就学不到。
这个问题在开放性任务中尤为突出。数学证明、代码生成等任务有明确的正确性判断标准,RLVR 可以有效工作。但医疗咨询、创意写作、法律分析等任务本质上是开放式的,缺乏唯一的标准答案,需要多维度评估。现有的 rubric-based 方法虽然提供了评估框架,但并没有解决探索瓶颈本身。
更糟糕的是,RL 训练过程中策略熵会自然坍缩,导致模型收敛到有限的推理轨迹集合,进一步压缩探索空间。这形成了一个恶性循环:探索不足 → 学不到新东西 → 探索更不足。
📊 关键数据
- HealthBench-500:Qwen3-30B + RuscaRL 达到与 OpenAI-o3 相当的性能水平
- 在 Best-of-N 评估下有效扩展推理边界,多个 benchmark 上超越基线方法
- 相比传统 RLVR,RuscaRL 在开放式任务(医疗、写作)上的提升尤为显著
- GitHub 43 stars,Apache-2.0 开源,代码已公开
🏗️ 技术架构与设计
- 双用途 Rubric 设计:同一套 checklist 式评分标准同时用于两件事——(1) 作为显式脚手架引导 rollout 生成的探索过程;(2) 作为可验证奖励信号驱动模型训练的利用过程
- 组内脚手架差异化(Intra-group Scaffolding Differentiation):同一组内的不同样本获得不同详细程度的 rubric 指导,生成多样化且高质量的响应
- 跨步脚手架衰减(Inter-step Scaffolding Decay):训练过程中逐步减少外 rubric 指导,迫使模型内化底层推理模式,而非依赖外部提示
- 基于 GRPO 的训练框架:采用 Group Relative Policy Optimization,无需价值模型,通过组内相对优势估计进行策略优化
- LLM-as-a-Judge 二元评估:对每个 rubric 标准进行 True/False 二元判断,聚合后生成稳健的标量奖励信号
🔑 关键洞察
💭 引发思考
RuscaRL 揭示了一个更深层的趋势:LLM 的能力提升正在从「模型层」转向「框架层」和「训练范式层」。当模型参数量增长的边际收益递减时,如何设计更聪明的训练信号和探索机制,成为新的竞争焦点。Rubric 作为「人类知识的结构化编码」,其在 RL 中的双重角色(指导探索 + 提供奖励)展现了一种优雅的对称性。
此外,脚手架衰减的思想与教育心理学中的「渐进式撤除」(scaffolding fading)理论高度一致——好的教学不是一直给答案,而是在关键时刻给提示,然后逐步放手。这种跨学科的思想迁移,可能正是下一代 RL 训练方法论的核心灵感来源。
📎 相关阅读
- DeepSeek-R1: RLVR 范式的开创性工作
- Kimi k1.5: 长上下文 RL 训练
- GRPO: Group Relative Policy Optimization 算法
逍遥云初 | 2026.06.03
推荐好物
优质精选以上为联盟推广链接,购买后作者可能获得佣金(不影响价格)
逍遥云初 · 2026-06-03
记录 · 思考 · 成长