← 返回首页
7 分钟阅读
RuscaRL:用评分标准脚手架打破 LLM 推理的探索瓶颈
LLM底层技术2026-06-03

RuscaRL:用评分标准脚手架打破 LLM 推理的探索瓶颈

📄 论文信息

论文:Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning

作者:Yang Zhou, Sunzhu Li, Shunyu Liu, Wenkai Fang, Kongcheng Zhang 等(浙江大学、Li Auto、南洋理工大学、香港中文大学、杭州城市大学)

会议:ICML(最新修订:2026-01-30)

代码:https://github.com/IANNXANG/RuscaRL

🎯 核心问题

强化学习(RL)已被证明能激发大语言模型的推理能力,DeepSeek-R1 的 RLVR(Reinforcement Learning with Verifiable Rewards)就是最佳例证。然而,RL 面临一个根本性的鸡生蛋困境:RL 需要从高质量样本中学习,但探索这些样本的能力又受限于模型自身的固有局限——探索不了的,就学不到。

这个问题在开放性任务中尤为突出。数学证明、代码生成等任务有明确的正确性判断标准,RLVR 可以有效工作。但医疗咨询、创意写作、法律分析等任务本质上是开放式的,缺乏唯一的标准答案,需要多维度评估。现有的 rubric-based 方法虽然提供了评估框架,但并没有解决探索瓶颈本身。

更糟糕的是,RL 训练过程中策略熵会自然坍缩,导致模型收敛到有限的推理轨迹集合,进一步压缩探索空间。这形成了一个恶性循环:探索不足 → 学不到新东西 → 探索更不足。

📊 关键数据

  • HealthBench-500:Qwen3-30B + RuscaRL 达到与 OpenAI-o3 相当的性能水平
  • 在 Best-of-N 评估下有效扩展推理边界,多个 benchmark 上超越基线方法
  • 相比传统 RLVR,RuscaRL 在开放式任务(医疗、写作)上的提升尤为显著
  • GitHub 43 stars,Apache-2.0 开源,代码已公开

🏗️ 技术架构与设计

  • 双用途 Rubric 设计:同一套 checklist 式评分标准同时用于两件事——(1) 作为显式脚手架引导 rollout 生成的探索过程;(2) 作为可验证奖励信号驱动模型训练的利用过程
  • 组内脚手架差异化(Intra-group Scaffolding Differentiation):同一组内的不同样本获得不同详细程度的 rubric 指导,生成多样化且高质量的响应
  • 跨步脚手架衰减(Inter-step Scaffolding Decay):训练过程中逐步减少外 rubric 指导,迫使模型内化底层推理模式,而非依赖外部提示
  • 基于 GRPO 的训练框架:采用 Group Relative Policy Optimization,无需价值模型,通过组内相对优势估计进行策略优化
  • LLM-as-a-Judge 二元评估:对每个 rubric 标准进行 True/False 二元判断,聚合后生成稳健的标量奖励信号

🔑 关键洞察

🔑
脚手架衰减是精髓所在。不是永远给模型提示,而是逐步撤走——就像教小孩骑自行车,先装辅助轮,再拆掉。这避免了模型对外部指导的永久依赖,真正实现能力内化。
🔑
探索瓶颈的本质是「已知圈」的限制。传统 RL 方法(熵正则化、延长训练)只是在已知分布内做文章,RuscaRL 通过外部 rubric 真正把探索推向了模型原本到不了的区域。
🔑
小模型 + 好框架 > 大模型裸跑。Qwen3-30B 加上 RuscaRL 就能在 HealthBench 上追平 OpenAI-o3,说明架构设计的杠杆效应远大于单纯堆参数。

💭 引发思考

RuscaRL 揭示了一个更深层的趋势:LLM 的能力提升正在从「模型层」转向「框架层」和「训练范式层」。当模型参数量增长的边际收益递减时,如何设计更聪明的训练信号和探索机制,成为新的竞争焦点。Rubric 作为「人类知识的结构化编码」,其在 RL 中的双重角色(指导探索 + 提供奖励)展现了一种优雅的对称性。

此外,脚手架衰减的思想与教育心理学中的「渐进式撤除」(scaffolding fading)理论高度一致——好的教学不是一直给答案,而是在关键时刻给提示,然后逐步放手。这种跨学科的思想迁移,可能正是下一代 RL 训练方法论的核心灵感来源。

📎 相关阅读

  • DeepSeek-R1: RLVR 范式的开创性工作
  • Kimi k1.5: 长上下文 RL 训练
  • GRPO: Group Relative Policy Optimization 算法

逍遥云初 | 2026.06.03

逍遥云初 · 2026-06-03

记录 · 思考 · 成长