Tmax:一种简单的终端智能体配方

Hugging Face Daily Papers 论文

摘要

Tmax 引入了一种简化的终端智能体强化学习训练配方,通过新颖的数据生成分类法和扩展的开源数据集,使用 9B 参数模型实现了最先进的性能。

终端智能体已迅速成为语言模型(LM)最流行的下游应用。尽管它们应用广泛,但学术研究中针对基于强化学习(RL)训练此类模型的工作相对较少,这可能是由于基准测试困难、数据缺乏以及缺少简单基线配方所致。我们提出了 Tmax,这是迄今为止最强的开源终端智能体强化学习配方,使开源数据配方更接近前沿。我们的配方虽然简单,但仅凭 9B 参数就在 Terminal-Bench 2.0 上达到了 27% 的准确率,优于此前工作中更大的模型。具体来说,我们采用一种新颖的分类法生成数据,结合了难度控制、角色设定和验证器多样化,从而能够廉价地生成大量终端环境用于强化学习和监督微调(SFT)训练。我们开源了终端数据集,其规模是此前发布的终端智能体数据集的 2.5 倍以上。然后,我们使用这些数据,通过一种简单的仅基于结果的强化学习配方训练开放权重的模型。我们发布了数据、模型和代码,作为未来终端智能体开放学术研究的强基线,详见 https://github.com/hamishivi/tmax。
查看原文
查看缓存全文

缓存时间: 2026/06/23 05:40

论文页面 - Tmax: 终端智能体的简单配方

来源:https://huggingface.co/papers/2606.23321

摘要

一种针对终端智能体的新型强化学习训练方法,通过简化配方和扩展数据集实现了卓越性能,能够在比先前方法更少的参数下进行有效训练。

终端智能体迅速成为语言模型(https://huggingface.co/papers?q=language%20models)(LM)最流行的下游应用。尽管它们很普遍,但学术界对基于强化学习训练这类模型的研究相对较少,这很可能是因为基准测试难度大、数据缺乏以及缺乏简单的基线配方。我们提出了 Tmax,这是迄今为止最强大的开源终端智能体(https://huggingface.co/papers?q=terminal%20agents)强化学习配方,使开源数据配方更接近前沿水平。尽管方法简单,我们的配方仅用 9B 参数就在 Terminal-Bench 2.0(https://huggingface.co/papers?q=Terminal-Bench%202.0)上取得了 27% 的成绩,超越了先前工作中更大的模型。具体来说,我们使用一种新颖的分类法生成数据,结合了难度控制(https://huggingface.co/papers?q=difficulty%20control)、角色设定(https://huggingface.co/papers?q=personas)和验证器多样化(https://huggingface.co/papers?q=verifier%20diversification),这使得我们能够廉价地生成大量用于 RL 和 SFT 训练(https://huggingface.co/papers?q=SFT%20training)的终端环境。我们开源了终端数据集,其大小是先前发布的终端智能体数据集的 2.5 倍以上。然后,我们使用该数据通过一个简单的、仅基于结果的配方(https://huggingface.co/papers?q=outcome-only%20recipe)训练开放权重的模型。我们发布数据、模型和代码,作为未来终端智能体(https://huggingface.co/papers?q=terminal%20agents)开放学术研究的强基线,网址为 https://github.com/hamishivi/tmax。

查看 arXiv 页面(https://arxiv.org/abs/2606.23321)查看 PDF(https://arxiv.org/pdf/2606.23321)项目页面(https://wai-org.com/blog/tmax/)GitHub(https://github.com/hamishivi/tmax)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.23321)

引用本论文的模型12

allenai/tmax-27b 2.65M• 更新于约2小时前 • 4 (https://huggingface.co/allenai/tmax-27b)

allenai/tmax-9b 9B• 更新于约2小时前 • 3 (https://huggingface.co/allenai/tmax-9b)

allenai/qwen35-9b-openthoughts 9B• 更新于约2小时前 • 4 • 2 (https://huggingface.co/allenai/qwen35-9b-openthoughts)

allenai/tmax-2b 2B• 更新于约2小时前 • 1 (https://huggingface.co/allenai/tmax-2b)

浏览引用本论文的12个模型 (https://huggingface.co/models?other=arxiv:2606.23321)## 引用本论文的数据集11

allenai/tmax-15k-open-instruct 更新于约2小时前 • 14 • 1 (https://huggingface.co/datasets/allenai/tmax-15k-open-instruct)

allenai/tmax-sft 更新于约2小时前 • 6 (https://huggingface.co/datasets/allenai/tmax-sft)

allenai/TMax-15K 查看器• 更新于约2小时前 • 14.6k • 2 • 2 (https://huggingface.co/datasets/allenai/TMax-15K)

allenai/open-instruct-endless-terminals 更新于约2小时前 • 1 (https://huggingface.co/datasets/allenai/open-instruct-endless-terminals)

浏览引用本论文的11个数据集 (https://huggingface.co/datasets?other=arxiv:2606.23321)### 引用本论文的Space0

没有链接本论文的Space

请在Space的README.md中引用 arxiv.org/abs/2606.23321 以从本页面链接它。

包含本论文的收藏0

没有包含本论文的收藏

请将本论文添加到收藏(https://huggingface.co/new-collection)中以从本页面链接它。

相似文章

TMax:终端智能体的简易方案

Reddit r/LocalLLaMA

TMax 提供了一种在终端环境中构建AI智能体的简单方法,结合实用的设计原则,实现高效的命令行自动化。

MiniMax-M2系列:迷你激活释放最大现实智能

Hugging Face Daily Papers

MiniMax-M2系列引入了混合专家语言模型,在极少的激活参数下(总参数量2299亿,每token仅激活98亿)在代理任务上实现了高性能。该系列利用代理驱动的数据管道、名为Forge的可扩展强化学习系统,以及一个向自我进化迈出初步步骤的检查点。

Terminal-World: 通过智能体技能扩展终端代理环境

arXiv cs.CL

Terminal-World 引入了一个全自动流水线,利用智能体技能为终端代理合成高质量的训练数据,使得模型仅使用 1.2% 的训练数据就能超越基线。该方法从技能原语中共同推导出任务指令、环境和教师轨迹。

CLI-Universe:面向终端代理的可验证任务合成引擎

Hugging Face Daily Papers

CLI-Universe是一个合成引擎,通过多维能力分类体系和证据引导的研究生成可验证的终端代理任务,并产生包含6000条轨迹的精炼数据集。在该数据集上微调Qwen3-32B,在Terminal-Bench 2.0上达到了33.4%,为参数量在32B及以下的开源模型树立了新的最优水平。