policy-sharing

标签

#policy-sharing

多智能体RL何时能提升LLM工作流？工作流、规模与策略共享的权衡

arXiv cs.AI ↗ · 2026-05-26 缓存

本文研究了端到端强化学习训练何时能改善多智能体LLM工作流，比较了不同工作流、任务和模型规模下的共享策略与隔离策略训练，揭示了条件性权衡。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈