小型RL控制器与大型语言模型:RL引导的测试时自适应采样
摘要
本文将大型语言模型的自适应采样建模为马尔可夫决策过程,并训练一个轻量级强化学习控制器来平衡正确性、延迟和计算成本,从而实现了更好的权衡。
查看缓存全文
缓存时间: 2026/06/03 07:36
Paper page - Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling
来源:https://huggingface.co/papers/2606.03102
摘要
将大语言模型的自适应采样建模为马尔可夫决策过程,并通过强化学习进行优化,以平衡正确性、延迟和计算成本。
测试时扩展能提升大语言模型(https://huggingface.co/papers?q=large%20language%20models)的推理性能,但会显著增加总计算量和延迟。现有的自适应采样(https://huggingface.co/papers?q=adaptive%20sampling)方法通过动态决定何时停止采样部分缓解了此问题,但通常依赖启发式规则或分布假设。在本工作中,我们将自适应采样(https://huggingface.co/papers?q=adaptive%20sampling)建模为马尔可夫决策过程(https://huggingface.co/papers?q=Markov%20decision%20process)(MDP)。我们使用强化学习(https://huggingface.co/papers?q=reinforcement%20learning)(RL)训练一个轻量级采样控制器,以联合平衡答案正确性、延迟和计算成本。在每一轮中,控制器决定是停止采样还是继续获取更多样本。我们的方法非常轻量,仅依赖最终答案的统计信息,且可在CPU上训练和部署。我们进一步证明,所得框架可被解释为带显式预算约束的约束优化(https://huggingface.co/papers?q=constrained%20optimization)问题的拉格朗日松弛(https://huggingface.co/papers?q=Lagrangian%20relaxation)。实验表明,相较于ASC、ESC等强基线,我们的方法在答案正确性、采样轮次和所需总样本数之间实现了更优的权衡。
查看 arXiv 页面(https://arxiv.org/abs/2606.03102)查看 PDF(https://arxiv.org/pdf/2606.03102)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.03102)
在你的 agent 中获取此论文:
hf papers read 2606\.03102
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
暂无模型关联此论文
在模型的 README.md 中引用 arxiv.org/abs/2606.03102 以从此页面链接。
引用此论文的数据集0
暂无数据集关联此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.03102 以从此页面链接。
引用此论文的 Spaces0
暂无 Space 关联此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.03102 以从此页面链接。
包含此论文的收藏集0
暂无收藏集包含此论文
将论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
CASCADE:大语言模型在部署期间的基于案例的持续自适应
本文介绍了 CASCADE,这是一个部署时学习框架,允许大型语言模型通过情境记忆和上下文赌博机优化实现持续自适应,而无需修改模型参数。
强化递归语言模型(18分钟阅读)
本文探讨了利用强化学习微调小型(4B)递归语言模型(RLM)从科学文档中选取证据,结果表明经过强化学习训练的4B模型在模型大小和成本仅为其一小部分的情况下,达到了与Claude Sonnet 4.6相当的性能。
ReAD:面向大型语言模型的强化引导能力蒸馏
本文提出了 ReAD,这是一种强化引导的能力蒸馏框架,通过考虑大型语言模型中的跨能力迁移来优化 token 预算。与现有基线相比,该方法在提升下游效用的同时,减少了有害溢出。
借助大语言模型发现强化学习接口
本文介绍了 LIMEN,这是一个由大语言模型引导的演化框架,能够通过联合优化原始模拟器状态的观测映射与奖励函数,自动发现强化学习接口。该方法有效降低了人工设计成本,并证明了观测与奖励的协同设计优于单独优化其中任意单一组件。
UniScale: 通过模型路由与测试时扩展的在线联合优化实现自适应统一推理扩展
提出UniScale,一种在线框架,通过上下文多臂老虎机优化统一模型路由和测试时扩展,以在LLM推理中实现更好的质量-成本权衡。