multi-agent-reasoning

#multi-agent-reasoning

辩论者的混合体：在多智能体推理中学习架构层面的辩论

arXiv cs.AI ↗ · 2天前缓存

提出一种辩论者混合（MoD）框架，利用混合专家模型实现单个LLM内的动态自我辩论，在显著降低延迟和令牌消耗的同时实现更优的准确率。

0 人收藏 0 人点赞

#multi-agent-reasoning

从受训者到训练者：面向多智能体推理的强化学习的LLM设计训练环境

arXiv cs.CL ↗ · 2026-06-17 缓存

本文提出了LLM-as-Environment-Engineer框架，其中策略模型通过分析失败案例自动重新设计强化学习训练环境，并引入MAPF-FrozenLake作为可控测试平台。该框架使用Qwen3-4B模型，性能优于GPT和Gemini等更大规模模型，表明策略学习提升了模型诊断自身弱点的能力。

0 人收藏 0 人点赞

multi-agent-reasoning

辩论者的混合体：在多智能体推理中学习架构层面的辩论

从受训者到训练者：面向多智能体推理的强化学习的LLM设计训练环境

提交意见反馈