flow-based

标签

Cards List
#flow-based

GenPO++: 生成式策略优化与无雅可比似然比

arXiv cs.LG · 2026-06-08 缓存

GenPO++ 提出了一种可逆生成式策略优化框架,该框架在高阶可逆 ODE 求解器中使用历史状态作为辅助记忆,从而为强化学习中的流式策略实现精确反演和无雅可比似然比计算。它在大规模控制、微调和真实世界机器人任务上取得了有竞争力的性能,同时提高了稳定性和效率。

0 人收藏 0 人点赞
#flow-based

超越引导向量:用于推理时干预的基于流的激活引导

arXiv cs.CL · 2026-05-08 缓存

本文介绍了 FLAS,这是一种基于流的激活引导方法,通过学习概念条件化的速度场,在推理时引导语言模型的激活。在 AxBench 基准测试中,FLAS 是首个无需针对特定概念进行微调,即可在未见概念上持续优于上下文提示(in-context prompting)的学习型方法。

0 人收藏 0 人点赞
#flow-based

Glow:更优的可逆生成模型

OpenAI Blog · 2018-07-09 缓存

OpenAI 推出 Glow,一种改进的可逆生成模型,通过用可学习的 1x1 卷积替换固定置换简化了 RealNVP 架构,实现更好的信息流和显著的性能提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈