用 LLM 优化 LLM:面向测试时扩展的智能体发现方法

Hugging Face Daily Papers 论文

摘要

本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。

测试时扩展(TTS)已成为通过在推理阶段分配额外计算资源来提升大型语言模型性能的有效方法。然而,现有的 TTS 策略大多由人工设计:研究人员凭直觉手动设计推理模式并调整启发式规则,导致大量的计算资源分配空间未被探索。我们提出了一种环境驱动的框架 AutoTTS,改变了研究人员的设计对象:从单一的 TTS 启发式规则转变为可以自动发现 TTS 策略的环境。AutoTTS 的关键在于环境构建:发现环境必须使控制空间易于处理,并为 TTS 搜索提供廉价且频繁的反馈。作为一种具体实现,我们将宽度-深度 TTS 形式化为基于预收集的推理轨迹和探测信号的控制器合成,其中控制器决定何时进行分支、继续、探测、剪枝或停止,并且无需重复调用 LLM 即可廉价评估。我们进一步引入了 beta 参数化以使搜索易于处理,并采用细粒度的执行轨迹反馈来提高发现效率,帮助智能体诊断 TTS 程序失败的原因。在数学推理基准测试上的实验表明,所发现的策略在整体准确率-成本权衡方面优于强大的人工设计基线。所发现的策略能够泛化到未见过的基准测试和模型规模,而整个发现过程仅花费 39.9 美元和 160 分钟。我们的数据和代码将在 https://github.com/zhengkid/AutoTTS 开源。
查看原文
查看缓存全文

缓存时间: 2026/05/11 02:42

论文页面 - LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

来源: https://huggingface.co/papers/2605.08083 发布于 5月8日

#2 当日最佳论文 (https://huggingface.co/papers/date/2026-05-11) 作者:

,

,

,

,

,

,

,

,

,

,

,

摘要

AutoTTS 将推理轨迹上的控制器合成与探测信号相结合,自动化地发现测试时缩放(test-time scaling)策略,从而在极小的计算开销下实现更优的准确率-成本权衡。

测试时缩放 (https://huggingface.co/papers?q=Test-time%20scaling)(TTS)已成为一种通过推理期间分配额外计算来提升大语言模型性能的有效方法。然而,现有的 TTS 策略大多依靠人工设计:研究人员凭直觉手动设计推理模式并调整启发式规则,导致大量计算分配空间未被探索。我们提出了一种环境驱动的框架 AutoTTS,改变了研究人员的设计对象:从具体的 TTS 启发式规则转变为能够自动发现 TTS 策略的环境。AutoTTS 的关键在于环境构建:发现环境必须使控制空间易于处理,并为 TTS 搜索提供廉价且频繁的反馈。作为具体实现,我们将宽度-深度 TTS 形式化为在预收集的推理轨迹 (https://huggingface.co/papers?q=reasoning%20trajectories) 和探测信号 (https://huggingface.co/papers?q=probe%20signals) 上的控制器合成 (https://huggingface.co/papers?q=controller%20synthesis),其中控制器决定何时分支、继续、探测、剪枝或停止,并且可以在不重复调用 LLM 的情况下廉价评估。我们进一步引入 beta 参数化 (https://huggingface.co/papers?q=beta%20parameterization) 以使搜索过程易于处理,并引入细粒度执行轨迹反馈 (https://huggingface.co/papers?q=fine-grained%20execution%20trace%20feedback) 以帮助智能体诊断 TTS 程序失败的原因,从而提高发现效率。在数学推理基准上的实验表明,发现的策略在整体准确率-成本权衡方面优于强手动设计基线。发现的策略能够泛化到留出的基准测试和模型规模,而整个发现过程仅花费 39.9 美元和 160 分钟。我们的数据和代码将在 https://github.com/zhengkid/AutoTTS 开源。

查看 arXiv 页面 (https://arxiv.org/abs/2605.08083) 查看 PDF (https://arxiv.org/pdf/2605.08083) 项目页面 (https://zhengkid.github.io/AutoTTS-web/) GitHub16 (https://github.com/zhengkid/AutoTTS) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08083)

在你的智能体中获取这篇论文:

hf papers read 2605\.08083

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.08083 即可从此页面链接该论文。

引用此论文的数据集 0

暂无链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.08083 即可从此页面链接该论文。

引用此论文的 Spaces 0

暂无链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.08083 即可从此页面链接该论文。

包含此论文的收藏集 0

暂无包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接该论文。

相似文章

代理式测试时扩展(GitHub 仓库)

TLDR AI

AutoTTS 是一个开源工具,它利用代理发现机制,自动为大型语言模型(LLM)寻找最优的测试时扩展策略,通过基于重放的评估显著降低 token 消耗和成本。

@ihtesham2005: 如果你仍认为 AI 代理无法进行真正的研究,这篇论文将终结这一争论。来自谷歌和 Meta 的研究人员提出……

X AI KOLs Following

来自谷歌和 Meta 的研究人员提出了 AutoTTS 框架,该框架利用 AI 代理在没有人工干预的情况下,自动发现并优化大语言模型(LLM)的推理时缩放策略。该代理成功识别出了复杂的、协同工作的推理机制,在较低的计算成本下优于人工设定的基准。