agent-training

标签

Cards List
#agent-training

EnvScaler:通过程序综合为LLM智能体扩展工具交互环境

arXiv cs.CL · 2026-04-20 缓存

EnvScaler是一个自动化框架,通过程序综合为LLM智能体扩展工具交互环境,创建了191个多样化环境和7K个场景,以提升智能体在多轮、多工具交互任务上的性能。

0 人收藏 0 人点赞
#agent-training

CoEvolve:通过智能体-数据互进化训练LLM智能体

arXiv cs.CL · 2026-04-20 缓存

CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。

0 人收藏 0 人点赞
#agent-training

Mind DeepResearch 技术报告

Hugging Face Daily Papers · 2026-04-17 缓存

# 论文页面 - Mind DeepResearch 技术报告 来源:[https://huggingface.co/papers/2604.14518](https://huggingface.co/papers/2604.14518) ## 摘要 MindDR 是一个高效的多智能体深度研究框架,通过协作式三智能体架构与专门设计的四阶段训练流程,在多个基准测试中取得优异成绩。我们提出 Mind DeepResearch(MindDR),一个高效的[多智能体深度研究框架](https://hug

0 人收藏 0 人点赞
#agent-training

Universe

OpenAI Blog · 2016-12-05 缓存

OpenAI Universe 是一个软件平台,允许强化学习智能体通过基于VNC的界面与任何现有计算机程序交互,支持以60帧/秒的速率并行运行环境、人类演示和自动奖励提取。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈