agent-training

#agent-training

EnvScaler：通过程序综合为LLM智能体扩展工具交互环境

arXiv cs.CL ↗ · 2026-04-20 缓存

EnvScaler是一个自动化框架，通过程序综合为LLM智能体扩展工具交互环境，创建了191个多样化环境和7K个场景，以提升智能体在多轮、多工具交互任务上的性能。

0 人收藏 0 人点赞

#agent-training

CoEvolve：通过智能体-数据互进化训练LLM智能体

arXiv cs.CL ↗ · 2026-04-20 缓存

CoEvolve提出了一个智能体-数据互进化框架，通过闭环、交互驱动的学习来训练LLM智能体，同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成，在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进（绝对收益15-19%）。

0 人收藏 0 人点赞

#agent-training

Mind DeepResearch 技术报告

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

# 论文页面 - Mind DeepResearch 技术报告来源：[https://huggingface.co/papers/2604.14518](https://huggingface.co/papers/2604.14518) ## 摘要 MindDR 是一个高效的多智能体深度研究框架，通过协作式三智能体架构与专门设计的四阶段训练流程，在多个基准测试中取得优异成绩。我们提出 Mind DeepResearch（MindDR），一个高效的[多智能体深度研究框架](https://hug

0 人收藏 0 人点赞

#agent-training

Universe

OpenAI Blog ↗ · 2016-12-05 缓存

OpenAI Universe 是一个软件平台，允许强化学习智能体通过基于VNC的界面与任何现有计算机程序交互，支持以60帧/秒的速率并行运行环境、人类演示和自动奖励提取。

0 人收藏 0 人点赞

agent-training

EnvScaler：通过程序综合为LLM智能体扩展工具交互环境

CoEvolve：通过智能体-数据互进化训练LLM智能体

Mind DeepResearch 技术报告

Universe

提交意见反馈