逍遥云初

📄 论文信息

论文：Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning

作者：Yang Zhou, Sunzhu Li, Shunyu Liu, Wenkai Fang, Kongcheng Zhang 等（浙江大学、Li Auto、南洋理工大学、香港中文大学、杭州城市大学）

会议：ICML（最新修订：2026-01-30）

代码：https://github.com/IANNXANG/RuscaRL

✦

🎯 核心问题

强化学习（RL）已被证明能激发大语言模型的推理能力，DeepSeek-R1 的 RLVR（Reinforcement Learning with Verifiable Rewards）就是最佳例证。然而，RL 面临一个根本性的鸡生蛋困境：RL 需要从高质量样本中学习，但探索这些样本的能力又受限于模型自身的固有局限——探索不了的，就学不到。

这个问题在开放性任务中尤为突出。数学证明、代码生成等任务有明确的正确性判断标准，RLVR 可以有效工作。但医疗咨询、创意写作、法律分析等任务本质上是开放式的，缺乏唯一的标准答案，需要多维度评估。现有的 rubric-based 方法虽然提供了评估框架，但并没有解决探索瓶颈本身。

更糟糕的是，RL 训练过程中策略熵会自然坍缩，导致模型收敛到有限的推理轨迹集合，进一步压缩探索空间。这形成了一个恶性循环：探索不足 → 学不到新东西 → 探索更不足。

📊 关键数据

HealthBench-500：Qwen3-30B + RuscaRL 达到与 OpenAI-o3 相当的性能水平
在 Best-of-N 评估下有效扩展推理边界，多个 benchmark 上超越基线方法
相比传统 RLVR，RuscaRL 在开放式任务（医疗、写作）上的提升尤为显著
GitHub 43 stars，Apache-2.0 开源，代码已公开

🏗️ 技术架构与设计

双用途 Rubric 设计：同一套 checklist 式评分标准同时用于两件事——(1) 作为显式脚手架引导 rollout 生成的探索过程；(2) 作为可验证奖励信号驱动模型训练的利用过程
组内脚手架差异化（Intra-group Scaffolding Differentiation）：同一组内的不同样本获得不同详细程度的 rubric 指导，生成多样化且高质量的响应
跨步脚手架衰减（Inter-step Scaffolding Decay）：训练过程中逐步减少外 rubric 指导，迫使模型内化底层推理模式，而非依赖外部提示
基于 GRPO 的训练框架：采用 Group Relative Policy Optimization，无需价值模型，通过组内相对优势估计进行策略优化
LLM-as-a-Judge 二元评估：对每个 rubric 标准进行 True/False 二元判断，聚合后生成稳健的标量奖励信号

🔑 关键洞察

🔑

脚手架衰减是精髓所在。不是永远给模型提示，而是逐步撤走——就像教小孩骑自行车，先装辅助轮，再拆掉。这避免了模型对外部指导的永久依赖，真正实现能力内化。

🔑

探索瓶颈的本质是「已知圈」的限制。传统 RL 方法（熵正则化、延长训练）只是在已知分布内做文章，RuscaRL 通过外部 rubric 真正把探索推向了模型原本到不了的区域。

🔑

小模型 + 好框架 > 大模型裸跑。Qwen3-30B 加上 RuscaRL 就能在 HealthBench 上追平 OpenAI-o3，说明架构设计的杠杆效应远大于单纯堆参数。

💭 引发思考

RuscaRL 揭示了一个更深层的趋势：LLM 的能力提升正在从「模型层」转向「框架层」和「训练范式层」。当模型参数量增长的边际收益递减时，如何设计更聪明的训练信号和探索机制，成为新的竞争焦点。Rubric 作为「人类知识的结构化编码」，其在 RL 中的双重角色（指导探索 + 提供奖励）展现了一种优雅的对称性。

此外，脚手架衰减的思想与教育心理学中的「渐进式撤除」（scaffolding fading）理论高度一致——好的教学不是一直给答案，而是在关键时刻给提示，然后逐步放手。这种跨学科的思想迁移，可能正是下一代 RL 训练方法论的核心灵感来源。

✦

📎 相关阅读

DeepSeek-R1: RLVR 范式的开创性工作
Kimi k1.5: 长上下文 RL 训练
GRPO: Group Relative Policy Optimization 算法

✦

逍遥云初 | 2026.06.03

RuscaRL：用评分标准脚手架打破 LLM 推理的探索瓶颈

📄 论文信息

🎯 核心问题

📊 关键数据

🏗️ 技术架构与设计

🔑 关键洞察

💭 引发思考

📎 相关阅读

推荐好物

京东好物

AI领航·智慧未来

京东精选好物 1