diffusion-models

#diffusion-models

通过自适应校正调度在生成采样中强制执行约束

arXiv cs.LG ↗ · 19小时前缓存

本研究论文提出了一种用于在生成采样中强制执行硬约束的自适应校正调度方法，证明与末端或逐步投影方法相比，该方法能够改善成本-精度边界。

0 人收藏 0 人点赞

#diffusion-models

基于超球面流的语言建模

arXiv cs.LG ↗ · 19小时前缓存

本文介绍了 S-FLM，一种新颖的基于流的语言模型。该模型在超球面潜在空间中运行，旨在解决现有离散扩散模型和连续流模型的计算成本高昂及语义表达受限等问题。

0 人收藏 0 人点赞

#diffusion-models

通过稀疏内部快照实现骨干均衡的扩散模型异常检测

arXiv cs.LG ↗ · 19小时前缓存

本文提出了一种公平比较基于扩散模型的异常检测器的协议，并提出了规范特征快照（CFS），该算法利用稀疏的内部激活状态实现高效的异常检测。

0 人收藏 0 人点赞

#diffusion-models

TMPO：用于多样且高效扩散模型对齐的轨迹匹配策略优化

arXiv cs.LG ↗ · 19小时前缓存

本文介绍了轨迹匹配策略优化（TMPO），这是一种扩散模型对齐方法。它通过匹配轨迹级奖励分布而非最大化标量奖励，解决了奖励黑客攻击和视觉模态崩溃问题。

0 人收藏 0 人点赞

#diffusion-models

DiffScore：超越自回归似然性的文本评估

arXiv cs.CL ↗ · 19小时前缓存

本文介绍了 DiffScore，这是一个基于掩码大型扩散语言模型（Masked Large Diffusion Language Models）的文本评估框架，通过利用掩码重建来解决自回归评分中的位置偏差问题。

0 人收藏 0 人点赞

#diffusion-models

BitLM：利用位级连续扩散解锁多 Token 语言生成

arXiv cs.CL ↗ · 19小时前缓存

本文介绍了 BitLM，一种利用位级连续扩散并行生成多个 Token 的语言模型，旨在克服传统自回归生成的顺序瓶颈，同时保留因果结构。

0 人收藏 0 人点赞

#diffusion-models

深度之梦由此而成：可视化扩散模型中的单义特征

arXiv cs.LG ↗ · 昨天缓存

本文介绍了潜在空间优化可视化（LVO），这是一种机械可解释性技术，利用稀疏自编码器来可视化 Stable Diffusion 1.5 等扩散模型中的单义特征。

0 人收藏 0 人点赞

#diffusion-models

超越惩罚机制：基于扩散模型的离线强化学习分布外检测与选择性正则化

arXiv cs.LG ↗ · 昨天缓存

本文介绍了 DOSER，这是一种利用扩散模型进行分布外（OOD）检测和选择性正则化的框架，旨在离线强化学习中通过区分有益和有害的 OOD 动作来提升在静态数据集上的表现。

0 人收藏 0 人点赞

#diffusion-models

NoiseRater：用于扩散模型训练的元学习噪声评估

arXiv cs.LG ↗ · 昨天缓存

本文介绍了 NoiseRater，这是一种元学习框架，在扩散模型训练期间为各个噪声样本分配重要性评分，以提高训练效率和生成质量。

0 人收藏 0 人点赞

#diffusion-models

WildRelight：面向单图像重光照的实世界基准与物理引导自适应

Hugging Face Daily Papers ↗ · 昨天缓存

本文介绍了 WildRelight，这是一个针对单图像重光照的实世界基准数据集，旨在弥合合成场景与自然场景之间的差距。该研究提出了一种物理引导的自适应框架，利用扩散后验采样和测试时自适应来提升模型在实世界数据上的表现。

0 人收藏 0 人点赞

#diffusion-models

MoCam：通过结构化去噪动态实现统一的新视角合成

Hugging Face Daily Papers ↗ · 昨天缓存

MoCam 是一篇研究论文，介绍了一种基于扩散的统一新视角合成框架，该框架通过动态协调几何和外观先验，提高了对几何误差的鲁棒性。

0 人收藏 0 人点赞

#diffusion-models

长视频生成（阅读时间 4 分钟）

TLDR AI ↗ · 昨天缓存

本文介绍了 A²RD，这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新（Retrieve–Synthesize–Refine–Update）循环机制，并推出了一个新的基准测试 LVBench-C，以解决长时视频合成中的语义漂移问题。

0 人收藏 0 人点赞

#diffusion-models

Christoffel-DPS：在任意分布的扩散后验采样中进行最优传感器放置

arXiv cs.LG ↗ · 2天前缓存

本文介绍了 Christoffel-DPS，这是一个用于扩散后验采样中最优传感器放置的无分布依赖框架，其性能优于传统的基于高斯假设的方法。它为使用生成式模型从复杂非高斯分布中重建状态提供了理论保证和实际改进。

0 人收藏 0 人点赞

#diffusion-models

表格扩散模型中的隐私泄露：影响因素、攻击者知识与评估指标

arXiv cs.LG ↗ · 2天前缓存

本研究论文探讨了表格扩散模型中的隐私泄露问题，量化了训练设置、合成选择以及攻击者知识对隐私风险的影响。研究发现，即使在没有完美知识或庞大资源的情况下，攻击者仍能成功实施攻击，并揭示了启发式隐私评估指标的潜在缺陷。

0 人收藏 0 人点赞

#diffusion-models

为什么 DDIM 比 DDPM 产生更多幻觉：逆向动力学的理论分析

arXiv cs.LG ↗ · 2天前缓存

本文提供了理论分析，解释了为什么在扩散模型中，确定性的 DDIM 采样器比随机性的 DDPM 采样器产生更多的幻觉，将其归因于在逆向动力学过程中卡在模态插值区域。

0 人收藏 0 人点赞

#diffusion-models

扩散、基于分数和流匹配生成模型的统一测度论视角

arXiv cs.LG ↗ · 2天前缓存

本预印本提出了一个统一的测度论框架，用于理解扩散、基于分数和流匹配生成模型。它通过连续性/福克-普朗克方程建立了这些方法之间的联系，并分析了它们的采样方案及其理论保证。

0 人收藏 0 人点赞

#diffusion-models

通过熵门控连续比特流扩散缩小语言建模中的自回归差距

arXiv cs.CL ↗ · 2天前缓存

本文介绍了一种扩散语言模型，将文本视为二进制比特流上的连续过程，利用熵门控随机采样来缩小与自回归模型的性能差距。该模型在 LM1B 和 OWT 基准测试中取得了最先进的结果，同时降低了内存占用。

0 人收藏 0 人点赞

#diffusion-models

ELF：嵌入式语言流

Hugging Face Daily Papers ↗ · 2天前缓存

ELF提出了一种基于嵌入空间和流匹配的连续扩散语言模型，在更少的采样步骤下性能优于现有的离散和连续扩散语言模型。

0 人收藏 0 人点赞

#diffusion-models

Qwen-Image-2.0 技术报告

Hugging Face Daily Papers ↗ · 2天前缓存

Qwen-Image-2.0 是一个全新的图像生成基础模型，基于 Qwen3-VL 和多模态扩散 Transformer，将高保真合成与精确编辑能力统一起来。它在富含文本的内容、多语言排版以及照片级真实感生成方面表现卓越。

0 人收藏 0 人点赞

#diffusion-models

我构建了一个用于扩散模型微调的开源超参数搜索工具——根据评分选出最优配置

Reddit r/LocalLLaMA ↗ · 3天前

作者介绍了 'Bracket'，这是一个开源工具，通过并行训练试验和基于 VLM 的评分，自动搜索扩散模型微调的最佳超参数配置。

0 人收藏 0 人点赞

diffusion-models

提交意见反馈