@HuggingPapers: Stable-GFlowNet:通过对比轨迹平衡实现多样化且鲁棒的 LLM 红队测试 Naver AI 消除了不稳定的…
摘要
Naver AI 推出了 Stable-GFlowNet,这是一种通过对比轨迹平衡来消除生成流网络中不稳定的配分函数估计,从而改善 LLM 红队测试的方法。
查看缓存全文
缓存时间: 2026/05/09 20:16
Stable-GFlowNet:通过对比轨迹平衡实现多样化且鲁棒的 LLM 红队测试
Naver AI 通过成对比较和鲁棒掩码,消除了生成流网络(Generative Flow Networks)中不稳定的分区函数估计,从而在防止模式崩溃的同时保持多样性 https://t.co/xRXREBVzmu
相似文章
LeapAlign:通过构建两步轨迹在任意生成步骤后训练流匹配模型
LeapAlign是一种后训练方法,通过两步轨迹捷径降低计算成本,同时实现梯度稳定传播到早期生成步骤,从而改善流匹配模型与人类偏好的对齐。在微调Flux模型时,该方法在多种图像质量和文本对齐指标上均优于现有最先进方法。
通过非梯度向量流学习流图 [pdf]
提出一种非梯度向量流方法来学习流图,可能旨在改进光流或运动估计任务。
基于价值梯度流的强化学习
价值梯度流(VGF)提出了一种可扩展的行为正则化强化学习方法,将其构建为通过离散梯度流求解的最优传输问题,在离线强化学习和大型语言模型强化学习基准测试中取得了最先进的成果。该方法消除了显式的策略参数化,同时通过控制传输预算实现了自适应的测试时缩放。
@__JohnNguyen__: 今天我们发布了 CVPR 2026 论文 Flowception 的代码。Flowception 在完全双向序列模型和自回归生成之间架起了桥梁……
Meta 的 FAIR 团队发布了 Flowception 的代码,这是 CVPR 2026 的一篇论文,介绍了一种非自回归视频生成框架。该框架通过交错帧插入与连续去噪,减少了误差累积和计算成本。
SDFlow:用于时间序列生成的相似性驱动流匹配
本文介绍了 SDFlow,这是一种用于时间序列生成的相似性驱动流匹配框架,旨在解决自回归模型中的暴露偏差问题。通过在冻结的 VQ 潜在空间中进行低秩流形分解,SDFlow 实现了最先进的性能并显著提升了推理速度。