标签
GenPO++ 提出了一种可逆生成式策略优化框架,该框架在高阶可逆 ODE 求解器中使用历史状态作为辅助记忆,从而为强化学习中的流式策略实现精确反演和无雅可比似然比计算。它在大规模控制、微调和真实世界机器人任务上取得了有竞争力的性能,同时提高了稳定性和效率。
本文介绍了 FLAS,这是一种基于流的激活引导方法,通过学习概念条件化的速度场,在推理时引导语言模型的激活。在 AxBench 基准测试中,FLAS 是首个无需针对特定概念进行微调,即可在未见概念上持续优于上下文提示(in-context prompting)的学习型方法。
OpenAI 推出 Glow,一种改进的可逆生成模型,通过用可学习的 1x1 卷积替换固定置换简化了 RealNVP 架构,实现更好的信息流和显著的性能提升。