@HuggingPapers: Stable-GFlowNet:通过对比轨迹平衡实现多样化且鲁棒的 LLM 红队测试 Naver AI 消除了不稳定的…

X AI KOLs Following 论文

摘要

Naver AI 推出了 Stable-GFlowNet,这是一种通过对比轨迹平衡来消除生成流网络中不稳定的配分函数估计,从而改善 LLM 红队测试的方法。

Stable-GFlowNet:通过对比轨迹平衡实现多样化且鲁棒的 LLM 红队测试 Naver AI 通过成对比较和鲁棒性掩码消除了生成流网络中不稳定的配分函数估计,在保持多样性的同时防止了模式崩溃 https://t.co/xRXREBVzmu
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/09 20:16

Stable-GFlowNet:通过对比轨迹平衡实现多样化且鲁棒的 LLM 红队测试

Naver AI 通过成对比较和鲁棒掩码,消除了生成流网络(Generative Flow Networks)中不稳定的分区函数估计,从而在防止模式崩溃的同时保持多样性 https://t.co/xRXREBVzmu

相似文章

LeapAlign:通过构建两步轨迹在任意生成步骤后训练流匹配模型

Hugging Face Daily Papers

LeapAlign是一种后训练方法,通过两步轨迹捷径降低计算成本,同时实现梯度稳定传播到早期生成步骤,从而改善流匹配模型与人类偏好的对齐。在微调Flux模型时,该方法在多种图像质量和文本对齐指标上均优于现有最先进方法。

基于价值梯度流的强化学习

Hugging Face Daily Papers

价值梯度流(VGF)提出了一种可扩展的行为正则化强化学习方法,将其构建为通过离散梯度流求解的最优传输问题,在离线强化学习和大型语言模型强化学习基准测试中取得了最先进的成果。该方法消除了显式的策略参数化,同时通过控制传输预算实现了自适应的测试时缩放。

SDFlow:用于时间序列生成的相似性驱动流匹配

arXiv cs.AI

本文介绍了 SDFlow,这是一种用于时间序列生成的相似性驱动流匹配框架,旨在解决自回归模型中的暴露偏差问题。通过在冻结的 VQ 潜在空间中进行低秩流形分解,SDFlow 实现了最先进的性能并显著提升了推理速度。