terminal-environments

标签

Cards List
#terminal-environments

是什么使交互轨迹对训练终端智能体有效?

arXiv cs.AI · 5天前 缓存

本文研究了什么使交互轨迹对训练基于终端的AI智能体有效,介绍了Terminal-Lego流程,并揭示了一个教学悖论:较弱的智能体可以产生更好的训练数据。研究发现,环境基础监督(而非教师性能)是学生泛化能力的关键。

0 人收藏 0 人点赞
#terminal-environments

LiteCoder-Terminal:扩展用于学习语言智能体的长程终端环境

Hugging Face Daily Papers · 2026-05-28 缓存

LiteCoder-Terminal-Gen 引入了一种零依赖的合成管道,可生成可执行的终端训练环境,并产出 SFT 和 RL 数据集,使语言智能体在 Terminal Bench 基准测试上取得显著的性能提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈