标签
Polar 是一种智能体强化学习部署基础设施,允许将真实世界的工具集直接用作训练环境,无需修改代码,支持 Codex、Claude Code、OpenClaw 和 Hermes 等模型。
该推文重点介绍了美团团队关于 Skill0 的论文,这是一种用于技能内在化的RL方法,并引用了一篇关于自蒸馏智能体RL的相关论文。