面向高效可控LLM推理的代理式思维链引导

Hugging Face Daily Papers 2026/06/02 00:00 论文

chain-of-thought reasoning llm reinforcement-learning efficiency inference-time-compute agentic-ai

摘要

ACTS（代理式思维链引导）将LLM推理控制形式化为马尔可夫决策过程，其中控制器代理在推理过程中使用推理策略和引导短语自适应地引导冻结的推理器。该方法在显著节省token的同时实现了与完全思考模型相当的准确率，支持可控的准确率-效率权衡。

大语言模型通过扩展思维链推理提高了最终答案的准确率，但往往低效地消耗token，并且几乎无法在推理过程中进行控制。现有的高效推理方法通过缩短、提前停止或压缩轨迹来控制思考长度，但模型如何思考仍然隐含。本文提出代理式思维链引导（ACTS），将推理引导形式化为马尔可夫决策过程，其中控制器代理在推理过程中自适应地引导冻结的推理器。在每一步，控制器观察推理轨迹和剩余思考预算，然后发出一个包含推理策略和引导短语的引导动作，以启动推理器的下一步。这使得在保持推理器生成连续性的同时，能够实现预算感知的策略控制，从而实现高效推理。我们通过构建的合成引导轨迹（具有多预算增强）来初始化控制器代理，并通过带有预算条件奖励塑造的强化学习进一步优化它。跨多个基准的实验表明，ACTS在显著节省token的情况下达到了与完全思考模型相当的性能，并在不同推理器和任务中实现了可控的准确率-效率权衡。代码可在 https://github.com/Andree-9/ACTS 获取。

查看原文

面向高效可控LLM推理的代理式思维链引导

相似文章

自适应潜在智能体推理

潜在奖励引导：一种在推理大语言模型中隐式促进认知行为的自适应推理时框架

ACIL: 用于上下文学习的自动Chain-of-Thought

从推理中探寻真理：一种动态表示编辑框架用于引导LLM轨迹

@rao2z: \"当LLM输出逐步计划时，它会产生一种强烈的错觉，让你以为正在观看机器推理...

提交意见反馈