小型RL控制器与大型语言模型:RL引导的测试时自适应采样

Hugging Face Daily Papers 论文

摘要

本文将大型语言模型的自适应采样建模为马尔可夫决策过程,并训练一个轻量级强化学习控制器来平衡正确性、延迟和计算成本,从而实现了更好的权衡。

测试时扩展提升了大型语言模型的推理性能,但会产生大量的总计算量和延迟。现有的自适应采样方法通过动态决定何时停止采样来部分缓解此问题,但它们通常依赖启发式规则或分布假设。在这项工作中,我们将自适应采样建模为马尔可夫决策过程(MDP)。我们使用强化学习(RL)训练一个轻量级采样控制器,以共同平衡答案正确性、延迟和计算成本。在每一轮中,控制器决定停止采样或获取更多样本。我们的方法轻量级,仅依赖最终答案的统计信息,并且可以在CPU上训练和部署。我们进一步证明,所提出的框架可以解释为具有显式预算约束的约束优化问题的拉格朗日松弛。与ASC和ESC等强基线的实验表明,我们的方法在答案正确性、采样轮数和所需总样本数之间实现了更好的权衡。
查看原文
查看缓存全文

缓存时间: 2026/06/03 07:36

Paper page - Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

来源:https://huggingface.co/papers/2606.03102

摘要

将大语言模型的自适应采样建模为马尔可夫决策过程,并通过强化学习进行优化,以平衡正确性、延迟和计算成本。

测试时扩展能提升大语言模型(https://huggingface.co/papers?q=large%20language%20models)的推理性能,但会显著增加总计算量和延迟。现有的自适应采样(https://huggingface.co/papers?q=adaptive%20sampling)方法通过动态决定何时停止采样部分缓解了此问题,但通常依赖启发式规则或分布假设。在本工作中,我们将自适应采样(https://huggingface.co/papers?q=adaptive%20sampling)建模为马尔可夫决策过程(https://huggingface.co/papers?q=Markov%20decision%20process)(MDP)。我们使用强化学习(https://huggingface.co/papers?q=reinforcement%20learning)(RL)训练一个轻量级采样控制器,以联合平衡答案正确性、延迟和计算成本。在每一轮中,控制器决定是停止采样还是继续获取更多样本。我们的方法非常轻量,仅依赖最终答案的统计信息,且可在CPU上训练和部署。我们进一步证明,所得框架可被解释为带显式预算约束的约束优化(https://huggingface.co/papers?q=constrained%20optimization)问题的拉格朗日松弛(https://huggingface.co/papers?q=Lagrangian%20relaxation)。实验表明,相较于ASC、ESC等强基线,我们的方法在答案正确性、采样轮次和所需总样本数之间实现了更优的权衡。

查看 arXiv 页面(https://arxiv.org/abs/2606.03102)查看 PDF(https://arxiv.org/pdf/2606.03102)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.03102)

在你的 agent 中获取此论文:

hf papers read 2606\.03102

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无模型关联此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.03102 以从此页面链接。

引用此论文的数据集0

暂无数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.03102 以从此页面链接。

引用此论文的 Spaces0

暂无 Space 关联此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.03102 以从此页面链接。

包含此论文的收藏集0

暂无收藏集包含此论文

将论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

强化递归语言模型(18分钟阅读)

TLDR AI

本文探讨了利用强化学习微调小型(4B)递归语言模型(RLM)从科学文档中选取证据,结果表明经过强化学习训练的4B模型在模型大小和成本仅为其一小部分的情况下,达到了与Claude Sonnet 4.6相当的性能。

ReAD:面向大型语言模型的强化引导能力蒸馏

arXiv cs.CL

本文提出了 ReAD,这是一种强化引导的能力蒸馏框架,通过考虑大型语言模型中的跨能力迁移来优化 token 预算。与现有基线相比,该方法在提升下游效用的同时,减少了有害溢出。

借助大语言模型发现强化学习接口

Hugging Face Daily Papers

本文介绍了 LIMEN,这是一个由大语言模型引导的演化框架,能够通过联合优化原始模拟器状态的观测映射与奖励函数,自动发现强化学习接口。该方法有效降低了人工设计成本,并证明了观测与奖励的协同设计优于单独优化其中任意单一组件。