multi-teacher-distillation

标签

Cards List
#multi-teacher-distillation

InternScience/Agents-A1 · Hugging Face

Reddit r/LocalLLaMA · 5天前 缓存

Agents-A1 是 InternScience 推出的 35B 参数混合专家(MoE)智能体模型,通过长程轨迹缩放和多教师多领域蒸馏技术,在与 GPT-5.5 和 DeepSeek-V4-pro 等前沿规模系统的对比中展现出具有竞争力的性能。

0 人收藏 0 人点赞
#multi-teacher-distillation

MOPD:面向大语言模型后训练中能力整合的多教师在线策略蒸馏

Hugging Face Daily Papers · 6天前 缓存

MOPD提出了一种用于大语言模型后训练的多教师在线策略蒸馏范式,通过将特定领域的RL教师模型蒸馏到学生模型(使用其自身的采样数据),实现了多领域能力的高效整合。该方案优于Mix-RL和Cascade RL等现有方法,并已在工业级模型中部署。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈