multi-agent-reasoning

标签

Cards List
#multi-agent-reasoning

辩论者的混合体:在多智能体推理中学习架构层面的辩论

arXiv cs.AI · 2天前 缓存

提出一种辩论者混合(MoD)框架,利用混合专家模型实现单个LLM内的动态自我辩论,在显著降低延迟和令牌消耗的同时实现更优的准确率。

0 人收藏 0 人点赞
#multi-agent-reasoning

从受训者到训练者:面向多智能体推理的强化学习的LLM设计训练环境

arXiv cs.CL · 2026-06-17 缓存

本文提出了LLM-as-Environment-Engineer框架,其中策略模型通过分析失败案例自动重新设计强化学习训练环境,并引入MAPF-FrozenLake作为可控测试平台。该框架使用Qwen3-4B模型,性能优于GPT和Gemini等更大规模模型,表明策略学习提升了模型诊断自身弱点的能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈