trajectory-synthesis

标签

Cards List
#trajectory-synthesis

WRIT:面向多轮用户代理的写读密集型轨迹合成

arXiv cs.CL · 3天前 缓存

本文提出WRIT,一种用于合成多轮代理训练轨迹的流水线,该流水线平衡了写密集型与读重复杂度。该方法生成多样化的任务和模拟,使小型模型能够以更低的推理成本实现强大性能。

0 人收藏 0 人点赞
#trajectory-synthesis

从策略错误中恢复:鲁棒GUI代理的基准测试与轨迹合成

Hugging Face Daily Papers · 2026-05-28 缓存

引入GUI-RobustEval(一个用于GUI代理错误恢复的基准)和鲁棒性驱动轨迹合成(RoTS)以生成训练数据,在OSWorld上达到当前最佳性能。

0 人收藏 0 人点赞
#trajectory-synthesis

EnvFactory:通过可执行环境合成与鲁棒强化学习扩展工具使用智能体

Hugging Face Daily Papers · 2026-05-18 缓存

EnvFactory 自动化创建可执行工具环境和自然的多轮轨迹,用于训练具有智能体强化学习能力的大语言模型,在使用比先前工作更少的环境下,在 BFCLv3 和 MCP-Atlas 等基准测试上取得了优异性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈