小型RL控制器与大型语言模型：RL引导的测试时自适应采样

Hugging Face Daily Papers 2026/06/02 03:42 论文

摘要

本文将大型语言模型的自适应采样建模为马尔可夫决策过程，并训练一个轻量级强化学习控制器来平衡正确性、延迟和计算成本，从而实现了更好的权衡。

测试时扩展提升了大型语言模型的推理性能，但会产生大量的总计算量和延迟。现有的自适应采样方法通过动态决定何时停止采样来部分缓解此问题，但它们通常依赖启发式规则或分布假设。在这项工作中，我们将自适应采样建模为马尔可夫决策过程（MDP）。我们使用强化学习（RL）训练一个轻量级采样控制器，以共同平衡答案正确性、延迟和计算成本。在每一轮中，控制器决定停止采样或获取更多样本。我们的方法轻量级，仅依赖最终答案的统计信息，并且可以在CPU上训练和部署。我们进一步证明，所提出的框架可以解释为具有显式预算约束的约束优化问题的拉格朗日松弛。与ASC和ESC等强基线的实验表明，我们的方法在答案正确性、采样轮数和所需总样本数之间实现了更好的权衡。

查看原文

查看缓存全文

缓存时间: 2026/06/03 07:36

Paper page - Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

来源：https://huggingface.co/papers/2606.03102

摘要

将大语言模型的自适应采样建模为马尔可夫决策过程，并通过强化学习进行优化，以平衡正确性、延迟和计算成本。

测试时扩展能提升大语言模型（https://huggingface.co/papers?q=large%20language%20models）的推理性能，但会显著增加总计算量和延迟。现有的自适应采样（https://huggingface.co/papers?q=adaptive%20sampling）方法通过动态决定何时停止采样部分缓解了此问题，但通常依赖启发式规则或分布假设。在本工作中，我们将自适应采样（https://huggingface.co/papers?q=adaptive%20sampling）建模为马尔可夫决策过程（https://huggingface.co/papers?q=Markov%20decision%20process）（MDP）。我们使用强化学习（https://huggingface.co/papers?q=reinforcement%20learning）（RL）训练一个轻量级采样控制器，以联合平衡答案正确性、延迟和计算成本。在每一轮中，控制器决定是停止采样还是继续获取更多样本。我们的方法非常轻量，仅依赖最终答案的统计信息，且可在CPU上训练和部署。我们进一步证明，所得框架可被解释为带显式预算约束的约束优化（https://huggingface.co/papers?q=constrained%20optimization）问题的拉格朗日松弛（https://huggingface.co/papers?q=Lagrangian%20relaxation）。实验表明，相较于ASC、ESC等强基线，我们的方法在答案正确性、采样轮次和所需总样本数之间实现了更优的权衡。

查看 arXiv 页面（https://arxiv.org/abs/2606.03102）查看 PDF（https://arxiv.org/pdf/2606.03102）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.03102）

在你的 agent 中获取此论文：

hf papers read 2606\.03102

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无模型关联此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.03102 以从此页面链接。

引用此论文的数据集0

暂无数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.03102 以从此页面链接。

引用此论文的 Spaces0

暂无 Space 关联此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.03102 以从此页面链接。

包含此论文的收藏集0

暂无收藏集包含此论文

将论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接。

小型RL控制器与大型语言模型：RL引导的测试时自适应采样

Paper page - Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

CASCADE：大语言模型在部署期间的基于案例的持续自适应

强化递归语言模型（18分钟阅读）

ReAD：面向大型语言模型的强化引导能力蒸馏

借助大语言模型发现强化学习接口

UniScale: 通过模型路由与测试时扩展的在线联合优化实现自适应统一推理扩展

提交意见反馈