diffusion

#diffusion

@askalphaxiv: "原子语言模型理解并生成材料" 大多数材料AI仍然将晶体和语言分开处理…

X AI KOLs Timeline ↗ · 13小时前缓存

本文介绍了一种原子语言模型，它集成了3D原子编码器、Qwen大语言模型和扩散晶体生成器，原生处理多模态材料数据，实现了最先进的晶体结构预测和从头生成。

0 人收藏 0 人点赞

#diffusion

加速视觉生成式LLMs的解耦RL：基于扩散并行与训练器辅助生成

arXiv cs.AI ↗ · 昨天缓存

本文介绍了DigenRL，一个用于基于扩散的生成式LLMs的解耦RL框架，它利用生成轴流水线并行和训练器辅助生成，相比现有系统实现了1.56-2.10倍的吞吐量提升。

0 人收藏 0 人点赞

#diffusion

用于序列标注的近似结构化扩散

arXiv cs.CL ↗ · 2026-06-18 缓存

本文介绍了近似结构化扩散（Approximate Structured Diffusion），一种将条件随机场（CRF）与离散扩散相结合用于序列标注的方法。它使用以噪声标签序列为条件的CRF和近似平均场推理，在词性标注上实现了16.5%的错误率降低。

0 人收藏 0 人点赞

#diffusion

JanusMesh: 快速零样本3D视觉幻觉生成——基于跨空间去噪

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

JanusMesh 是一个快速、免训练的框架，通过将生成过程解耦为跨空间双分支去噪和视图条件纹理合成，生成文本驱动的3D视觉错觉——单个网格从不同视角展示不同语义——在仅3-5分钟内实现高真实感。

0 人收藏 0 人点赞

#diffusion

@ZhengyangGeng: 你永远可以相信Kaiming的质量标准。写作、代码、数据、配方、检查点…… https://github.com/PeppaKing8/minit2i-…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

MiniT2I 是一个极简的直接RGB文本到图像生成器，使用像素空间MM-JiT去噪器，结合流匹配和冻结的FLAN-T5-Large文本令牌，并开源了JAX/Flax和PyTorch实现以及检查点。

0 人收藏 0 人点赞

#diffusion

Moebius：0.2B轻量级图像修复框架，具备10B级性能

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

Moebius是一个0.22B参数的图像修复框架，媲美FLUX.1-Fill-Dev等10B级别模型，通过新颖的局部-全局交互模块和自适应蒸馏策略，实现超过15倍的推理加速。

0 人收藏 0 人点赞

#diffusion

@xichen_pan: 现代文本到图像模型越来越多地依赖大型预训练LLM。但存在一个有趣的不匹配：LLM…

X AI KOLs Following ↗ · 2026-06-16 缓存

RepFusion提出了一种方法，在扩散Transformer中将预训练多模态LLM用作噪声表示编码器，用于文本到图像生成，在相似计算量下超越基线。

0 人收藏 0 人点赞

#diffusion

@DengHokin: 我非常兴奋地宣布，我发起了一个每周视频模型期刊俱乐部。每周我们会挑选一篇论文进行深入探讨，……

X AI KOLs Timeline ↗ · 2026-06-16 缓存

作者发起了一个每周视频模型期刊俱乐部，涵盖视频生成、世界模型、物理推理、扩散模型、流匹配等。首次线下讲座将由 Yilun Du 主讲，主题为“基于世界模型的具身推理”。

0 人收藏 0 人点赞

#diffusion

SP^3: 用于即插即用恢复的球面先验

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

本文介绍SP³，一种使用球面编码器先验的即插即用图像恢复方法，在各项任务中实现与零样本扩散先验相当的感知质量，同时速度快3-630倍。

0 人收藏 0 人点赞

#diffusion

MoVerse: 实时视频世界建模与全景高斯脚手架

Hugging Face Daily Papers ↗ · 2026-06-11 缓存

MoVerse 通过创建360°全景图和3D高斯脚手架，从单张图像生成实时交互式视频，利用基于扩散的技术实现高效渲染。

0 人收藏 0 人点赞

#diffusion

VideoMDM: 基于2D监督的3D人体运动生成方法

Hugging Face Daily Papers ↗ · 2026-06-11 缓存

VideoMDM利用扩散框架，通过2D重投影损失和3D运动正则化器，从2D姿态中训练3D人体运动先验，在无需3D真实数据的情况下实现了接近3D监督的性能。

0 人收藏 0 人点赞

#diffusion

DiffusionGemma

Simon Willison's Blog ↗ · 2026-06-10 缓存

Google 发布了 DiffusionGemma，这是一个采用 Apache 2 许可证的开源权重文本生成模型（总参数量 26B，活跃参数量 4B），通过 NVIDIA 的 NIM 云 API 展示了极高的推理速度。

0 人收藏 0 人点赞

#diffusion

@_philschmid: Gemma 迎来扩散模型！DiffusionGemma 每秒可处理高达1000+个token！ - 基于Gemma 4构建，为26B MoE模型。 - 3.8B…

X AI KOLs Following ↗ · 2026-06-10 缓存

DiffusionGemma 是一个基于 Gemma 4 的 26B MoE 模型，通过扩散模型以256个token的块进行文本生成，每秒可处理超过1000个token，经量化后可在18GB显存内运行，已根据 Apache 2.0 许可发布。

0 人收藏 0 人点赞

#diffusion

@svlevine: 扩散（或流）可生成出色策略，但用强化学习训练它们却出了名的困难：BPTT不稳定，RL…

X AI KOLs Following ↗ · 2026-06-10

新论文展示了如何通过用单位矩阵近似流去噪过程的雅可比矩阵来优化用于强化学习的流匹配行动者，使训练变得可行。

0 人收藏 0 人点赞

#diffusion

google/diffusiongemma-26B-A4B-it

Hugging Face Models Trending ↗ · 2026-06-09 缓存

Google DeepMind 发布了 DiffusionGemma，这是一个 26B 参数的 Mixture-of-Experts 模型，使用离散扩散实现更快的文本生成，支持多模态输入和 256K token 上下文。

0 人收藏 0 人点赞

#diffusion

细胞为什么很小？

Hacker News Top ↗ · 2026-06-08 缓存

一篇解释细胞大小物理限制的文章，重点讨论了表面积与体积比以及扩散限制如何导致细胞变小。

0 人收藏 0 人点赞

#diffusion

SwiftVR：实时一步生成式视频修复

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

SwiftVR 是一个实时的一步生成式视频修复框架，利用高效注意力机制和轻量级修复感知自编码器，在消费级 GPU 上实现了高帧率。

0 人收藏 0 人点赞

#diffusion

MaskAlign: Token子集表征对齐实现高效扩散训练

Hugging Face Daily Papers ↗ · 2026-06-07 缓存

MaskAlign提出了一种Token子集表征对齐方法，通过减少对完整Token集的依赖，并在扰动下保持稳定对齐，从而改进扩散Transformer训练。

0 人收藏 0 人点赞

#diffusion

利用自引导标记化平衡图像压缩与生成

arXiv cs.LG ↗ · 2026-06-05 缓存

介绍了SelfBootTok，一种自引导标记化方法，它将全局和局部信息分离，使生成器计算量减少约40%，仅用64个标记即实现了1.56的gFID新最先进水平。

0 人收藏 0 人点赞

#diffusion

熵作为结构先验：DiT置信空间上的对数障碍如何驱动音乐多样性与发展

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

本文介绍了Eisbach对数障碍，这是一个从DiT输出空间能量分布的熵中导出的无参数权重，将其应用于Stable Audio 3的LoRA微调时，能够提升音乐多样性与主题发展，而不会导致模式坍缩。

0 人收藏 0 人点赞

diffusion

提交意见反馈