用 LLM 优化 LLM：面向测试时扩展的智能体发现方法

Hugging Face Daily Papers 2026/05/08 00:00 论文

test-time-computing auto-tts reasoning controller-synthesis open-source llm-optimization

摘要

本文提出了 AutoTTS，这是一种环境驱动的框架，通过将测试时扩展（TTS）策略的发现过程形式化为控制器合成，自动发现用于大型语言模型（LLM）的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡，且计算开销极小。

测试时扩展（TTS）已成为通过在推理阶段分配额外计算资源来提升大型语言模型性能的有效方法。然而，现有的 TTS 策略大多由人工设计：研究人员凭直觉手动设计推理模式并调整启发式规则，导致大量的计算资源分配空间未被探索。我们提出了一种环境驱动的框架 AutoTTS，改变了研究人员的设计对象：从单一的 TTS 启发式规则转变为可以自动发现 TTS 策略的环境。AutoTTS 的关键在于环境构建：发现环境必须使控制空间易于处理，并为 TTS 搜索提供廉价且频繁的反馈。作为一种具体实现，我们将宽度-深度 TTS 形式化为基于预收集的推理轨迹和探测信号的控制器合成，其中控制器决定何时进行分支、继续、探测、剪枝或停止，并且无需重复调用 LLM 即可廉价评估。我们进一步引入了 beta 参数化以使搜索易于处理，并采用细粒度的执行轨迹反馈来提高发现效率，帮助智能体诊断 TTS 程序失败的原因。在数学推理基准测试上的实验表明，所发现的策略在整体准确率-成本权衡方面优于强大的人工设计基线。所发现的策略能够泛化到未见过的基准测试和模型规模，而整个发现过程仅花费 39.9 美元和 160 分钟。我们的数据和代码将在 https://github.com/zhengkid/AutoTTS 开源。

查看原文

查看缓存全文

缓存时间: 2026/05/11 02:42

论文页面 - LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

来源: https://huggingface.co/papers/2605.08083 发布于 5月8日

#2 当日最佳论文 (https://huggingface.co/papers/date/2026-05-11) 作者:

摘要

AutoTTS 将推理轨迹上的控制器合成与探测信号相结合，自动化地发现测试时缩放（test-time scaling）策略，从而在极小的计算开销下实现更优的准确率-成本权衡。

测试时缩放 (https://huggingface.co/papers?q=Test-time%20scaling)（TTS）已成为一种通过推理期间分配额外计算来提升大语言模型性能的有效方法。然而，现有的 TTS 策略大多依靠人工设计：研究人员凭直觉手动设计推理模式并调整启发式规则，导致大量计算分配空间未被探索。我们提出了一种环境驱动的框架 AutoTTS，改变了研究人员的设计对象：从具体的 TTS 启发式规则转变为能够自动发现 TTS 策略的环境。AutoTTS 的关键在于环境构建：发现环境必须使控制空间易于处理，并为 TTS 搜索提供廉价且频繁的反馈。作为具体实现，我们将宽度-深度 TTS 形式化为在预收集的推理轨迹 (https://huggingface.co/papers?q=reasoning%20trajectories) 和探测信号 (https://huggingface.co/papers?q=probe%20signals) 上的控制器合成 (https://huggingface.co/papers?q=controller%20synthesis)，其中控制器决定何时分支、继续、探测、剪枝或停止，并且可以在不重复调用 LLM 的情况下廉价评估。我们进一步引入 beta 参数化 (https://huggingface.co/papers?q=beta%20parameterization) 以使搜索过程易于处理，并引入细粒度执行轨迹反馈 (https://huggingface.co/papers?q=fine-grained%20execution%20trace%20feedback) 以帮助智能体诊断 TTS 程序失败的原因，从而提高发现效率。在数学推理基准上的实验表明，发现的策略在整体准确率-成本权衡方面优于强手动设计基线。发现的策略能够泛化到留出的基准测试和模型规模，而整个发现过程仅花费 39.9 美元和 160 分钟。我们的数据和代码将在 https://github.com/zhengkid/AutoTTS 开源。

查看 arXiv 页面 (https://arxiv.org/abs/2605.08083) 查看 PDF (https://arxiv.org/pdf/2605.08083) 项目页面 (https://zhengkid.github.io/AutoTTS-web/) GitHub16 (https://github.com/zhengkid/AutoTTS) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08083)

在你的智能体中获取这篇论文：

hf papers read 2605\.08083

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.08083 即可从此页面链接该论文。

引用此论文的数据集 0

暂无链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.08083 即可从此页面链接该论文。

引用此论文的 Spaces 0

暂无链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.08083 即可从此页面链接该论文。

包含此论文的收藏集 0

暂无包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接该论文。

用 LLM 优化 LLM：面向测试时扩展的智能体发现方法

论文页面 - LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

代理式测试时扩展（GitHub 仓库）

LLMs知道自己知道，但并未据此行动：一种用于测试时扩展的元认知框架

AutoLLMResearch：通过从低成本学习来优化高成本，训练研究智能体以自动化大型语言模型实验配置

@ihtesham2005: 如果你仍认为 AI 代理无法进行真正的研究，这篇论文将终结这一争论。来自谷歌和 Meta 的研究人员提出……

研究人员让AI智能体优化LLM推理，Token用量锐减70%

提交意见反馈