flow-based

#flow-based

GenPO++: 生成式策略优化与无雅可比似然比

arXiv cs.LG ↗ · 2026-06-08 缓存

GenPO++ 提出了一种可逆生成式策略优化框架，该框架在高阶可逆 ODE 求解器中使用历史状态作为辅助记忆，从而为强化学习中的流式策略实现精确反演和无雅可比似然比计算。它在大规模控制、微调和真实世界机器人任务上取得了有竞争力的性能，同时提高了稳定性和效率。

0 人收藏 0 人点赞

#flow-based

arXiv cs.CL ↗ · 2026-05-08 缓存

本文介绍了 FLAS，这是一种基于流的激活引导方法，通过学习概念条件化的速度场，在推理时引导语言模型的激活。在 AxBench 基准测试中，FLAS 是首个无需针对特定概念进行微调，即可在未见概念上持续优于上下文提示（in-context prompting）的学习型方法。

0 人收藏 0 人点赞

#flow-based

OpenAI Blog ↗ · 2018-07-09 缓存

OpenAI 推出 Glow，一种改进的可逆生成模型，通过用可学习的 1x1 卷积替换固定置换简化了 RealNVP 架构，实现更好的信息流和显著的性能提升。

0 人收藏 0 人点赞