Tmax：一种简单的终端智能体配方

Hugging Face Daily Papers 2026/06/22 00:00 论文

terminal-agents reinforcement-learning open-source language-models recipe dataset training

摘要

Tmax 引入了一种简化的终端智能体强化学习训练配方，通过新颖的数据生成分类法和扩展的开源数据集，使用 9B 参数模型实现了最先进的性能。

终端智能体已迅速成为语言模型（LM）最流行的下游应用。尽管它们应用广泛，但学术研究中针对基于强化学习（RL）训练此类模型的工作相对较少，这可能是由于基准测试困难、数据缺乏以及缺少简单基线配方所致。我们提出了 Tmax，这是迄今为止最强的开源终端智能体强化学习配方，使开源数据配方更接近前沿。我们的配方虽然简单，但仅凭 9B 参数就在 Terminal-Bench 2.0 上达到了 27% 的准确率，优于此前工作中更大的模型。具体来说，我们采用一种新颖的分类法生成数据，结合了难度控制、角色设定和验证器多样化，从而能够廉价地生成大量终端环境用于强化学习和监督微调（SFT）训练。我们开源了终端数据集，其规模是此前发布的终端智能体数据集的 2.5 倍以上。然后，我们使用这些数据，通过一种简单的仅基于结果的强化学习配方训练开放权重的模型。我们发布了数据、模型和代码，作为未来终端智能体开放学术研究的强基线，详见 https://github.com/hamishivi/tmax。

查看原文

查看缓存全文

缓存时间: 2026/06/23 05:40

论文页面 - Tmax: 终端智能体的简单配方

来源：https://huggingface.co/papers/2606.23321

摘要

一种针对终端智能体的新型强化学习训练方法，通过简化配方和扩展数据集实现了卓越性能，能够在比先前方法更少的参数下进行有效训练。

终端智能体迅速成为语言模型（https://huggingface.co/papers?q=language%20models）（LM）最流行的下游应用。尽管它们很普遍，但学术界对基于强化学习训练这类模型的研究相对较少，这很可能是因为基准测试难度大、数据缺乏以及缺乏简单的基线配方。我们提出了 Tmax，这是迄今为止最强大的开源终端智能体（https://huggingface.co/papers?q=terminal%20agents）强化学习配方，使开源数据配方更接近前沿水平。尽管方法简单，我们的配方仅用 9B 参数就在 Terminal-Bench 2.0（https://huggingface.co/papers?q=Terminal-Bench%202.0）上取得了 27% 的成绩，超越了先前工作中更大的模型。具体来说，我们使用一种新颖的分类法生成数据，结合了难度控制（https://huggingface.co/papers?q=difficulty%20control）、角色设定（https://huggingface.co/papers?q=personas）和验证器多样化（https://huggingface.co/papers?q=verifier%20diversification），这使得我们能够廉价地生成大量用于 RL 和 SFT 训练（https://huggingface.co/papers?q=SFT%20training）的终端环境。我们开源了终端数据集，其大小是先前发布的终端智能体数据集的 2.5 倍以上。然后，我们使用该数据通过一个简单的、仅基于结果的配方（https://huggingface.co/papers?q=outcome-only%20recipe）训练开放权重的模型。我们发布数据、模型和代码，作为未来终端智能体（https://huggingface.co/papers?q=terminal%20agents）开放学术研究的强基线，网址为 https://github.com/hamishivi/tmax。

查看 arXiv 页面（https://arxiv.org/abs/2606.23321）查看 PDF（https://arxiv.org/pdf/2606.23321）项目页面（https://wai-org.com/blog/tmax/）GitHub（https://github.com/hamishivi/tmax）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.23321）

引用本论文的模型12

allenai/tmax-27b 2.65M• 更新于约2小时前 • 4 (https://huggingface.co/allenai/tmax-27b)

allenai/tmax-9b 9B• 更新于约2小时前 • 3 (https://huggingface.co/allenai/tmax-9b)

allenai/qwen35-9b-openthoughts 9B• 更新于约2小时前 • 4 • 2 (https://huggingface.co/allenai/qwen35-9b-openthoughts)

allenai/tmax-2b 2B• 更新于约2小时前 • 1 (https://huggingface.co/allenai/tmax-2b)

浏览引用本论文的12个模型 (https://huggingface.co/models?other=arxiv:2606.23321)## 引用本论文的数据集11

allenai/tmax-15k-open-instruct 更新于约2小时前 • 14 • 1 (https://huggingface.co/datasets/allenai/tmax-15k-open-instruct)

allenai/tmax-sft 更新于约2小时前 • 6 (https://huggingface.co/datasets/allenai/tmax-sft)

allenai/TMax-15K 查看器• 更新于约2小时前 • 14.6k • 2 • 2 (https://huggingface.co/datasets/allenai/TMax-15K)

allenai/open-instruct-endless-terminals 更新于约2小时前 • 1 (https://huggingface.co/datasets/allenai/open-instruct-endless-terminals)

浏览引用本论文的11个数据集 (https://huggingface.co/datasets?other=arxiv:2606.23321)### 引用本论文的Space0

没有链接本论文的Space

请在Space的README.md中引用 arxiv.org/abs/2606.23321 以从本页面链接它。

包含本论文的收藏0

没有包含本论文的收藏

请将本论文添加到收藏（https://huggingface.co/new-collection）中以从本页面链接它。

Tmax：一种简单的终端智能体配方

论文页面 - Tmax: 终端智能体的简单配方

摘要

引用本论文的模型12

allenai/tmax-27b 2.65M• 更新于约2小时前 • 4 (https://huggingface.co/allenai/tmax-27b)

allenai/tmax-9b 9B• 更新于约2小时前 • 3 (https://huggingface.co/allenai/tmax-9b)

allenai/qwen35-9b-openthoughts 9B• 更新于约2小时前 • 4 • 2 (https://huggingface.co/allenai/qwen35-9b-openthoughts)

allenai/tmax-2b 2B• 更新于约2小时前 • 1 (https://huggingface.co/allenai/tmax-2b)

allenai/tmax-15k-open-instruct 更新于约2小时前 • 14 • 1 (https://huggingface.co/datasets/allenai/tmax-15k-open-instruct)

allenai/tmax-sft 更新于约2小时前 • 6 (https://huggingface.co/datasets/allenai/tmax-sft)

allenai/TMax-15K 查看器• 更新于约2小时前 • 14.6k • 2 • 2 (https://huggingface.co/datasets/allenai/TMax-15K)

allenai/open-instruct-endless-terminals 更新于约2小时前 • 1 (https://huggingface.co/datasets/allenai/open-instruct-endless-terminals)

包含本论文的收藏0

相似文章

TMax：终端智能体的简易方案

LiteCoder-Terminal：扩展用于学习语言智能体的长程终端环境

MiniMax-M2系列：迷你激活释放最大现实智能

Terminal-World: 通过智能体技能扩展终端代理环境

CLI-Universe：面向终端代理的可验证任务合成引擎

提交意见反馈