标签
提出一种辩论者混合(MoD)框架,利用混合专家模型实现单个LLM内的动态自我辩论,在显著降低延迟和令牌消耗的同时实现更优的准确率。
本文提出了LLM-as-Environment-Engineer框架,其中策略模型通过分析失败案例自动重新设计强化学习训练环境,并引入MAPF-FrozenLake作为可控测试平台。该框架使用Qwen3-4B模型,性能优于GPT和Gemini等更大规模模型,表明策略学习提升了模型诊断自身弱点的能力。