标签
Agents-A1 是 InternScience 推出的 35B 参数混合专家(MoE)智能体模型,通过长程轨迹缩放和多教师多领域蒸馏技术,在与 GPT-5.5 和 DeepSeek-V4-pro 等前沿规模系统的对比中展现出具有竞争力的性能。
MOPD提出了一种用于大语言模型后训练的多教师在线策略蒸馏范式,通过将特定领域的RL教师模型蒸馏到学生模型(使用其自身的采样数据),实现了多领域能力的高效整合。该方案优于Mix-RL和Cascade RL等现有方法,并已在工业级模型中部署。