diffusion-model

标签

Cards List
#diffusion-model

基于CKM的通信感知无人机城市巡检智能轨迹优化

arXiv cs.LG · 3天前 缓存

本文提出了一种基于信道知识地图(CKM)的多无人机巡检轨迹规划框架,利用扩散模型重建高保真信道质量图,并结合图注意力网络与软演员-评论家算法实现通信感知路径规划。

0 人收藏 0 人点赞
#diffusion-model

Prob-BBDM:一种用于MRI序列图像到图像翻译的概率性布朗桥扩散模型

arXiv cs.AI · 4天前 缓存

本文介绍了Prob-BBDM,一种概率性布朗桥扩散模型,能够从2D轴向切片高效高质量地合成MRI序列,仅需4步扩散即可达到88.46% SSIM和26.09 dB PSNR,并在肿瘤分割中展现出临床实用性。

0 人收藏 0 人点赞
#diffusion-model

@charles_irl: dflash 高速运转

X AI KOLs Timeline · 4天前 缓存

NVIDIA 宣布推出 DFlash,一种用于推测解码的开源块扩散模型,在 Blackwell GPU 上可实现高达 15 倍的推理吞吐量提升,同时保持交互性。

0 人收藏 0 人点赞
#diffusion-model

TryOnCrafter: 通过可渲染的4D试穿代理释放相机轨迹实现逼真的视频虚拟试穿

Hugging Face Daily Papers · 4天前 缓存

本文提出了TryOnCrafter,一个用于相机可控视频虚拟试穿的新框架,利用可渲染的4D试穿代理和基于DiT的视频生成实现全方位视角探索,克服了现有方法依赖固定源相机轨迹的局限性。

0 人收藏 0 人点赞
#diffusion-model

我渴望在我的Strix Halo上获得15倍加速

Reddit r/LocalLLaMA · 4天前

Nvidia声称使用扩散模型在文本生成上实现15倍加速,一次性生成整个文本块。

0 人收藏 0 人点赞
#diffusion-model

能将任意图像转化为可玩幻觉的扩散模型!但本地运行,非数据中心

Reddit r/ArtificialInteligence · 4天前

一种扩散模型,能将任意图像转化为交互式可玩幻觉,在用户本地硬件上运行。

0 人收藏 0 人点赞
#diffusion-model

Krea 2 在 Hugging Face 上发布

Reddit r/LocalLLaMA · 4天前 缓存

Krea 2 是一个拥有120亿参数的文本到图像扩散模型,以开放权重形式在 Hugging Face 上发布,提供了 Raw(基础版)和 Turbo(后训练版)检查点。

0 人收藏 0 人点赞
#diffusion-model

Vera:一种用于保持内容一致性的分层扩散视频编辑模型

Hugging Face Daily Papers · 6天前 缓存

Vera 是一种分层扩散模型,专为视频编辑设计,通过生成编辑层和 Alpha 遮罩来保留源内容,并采用混合 Transformer(Mixture-of-Transformers)架构。

0 人收藏 0 人点赞
#diffusion-model

Inception Labs 的 Mercury 2 AI 在 Google 的 DiffusionGemma 擅长的领域击败了它(4分钟阅读)

TLDR AI · 6天前 缓存

Inception Labs 发布了 Mercury 2,这是一个扩散语言模型,每秒可生成约1000个token,在 AIME 2026 基准测试中以 90% 对 69.1% 的得分优于 Google 的 DiffusionGemma,不过 DiffusionGemma 是免费且开源权重的,而 Mercury 2 是付费且闭源权重的 API 模型。

0 人收藏 0 人点赞
#diffusion-model

krea/Krea-2-Turbo

Hugging Face Models Trending · 2026-06-18 缓存

Krea发布了Krea 2 Turbo,一个120亿参数的文本到图像扩散模型,在Hugging Face上开放权重,并支持多个推理库。

0 人收藏 0 人点赞
#diffusion-model

DiRecT: 基于滚动时域去噪的安全扩散规划

arXiv cs.LG · 2026-06-16 缓存

DiRecT提出了一种免训练的安全扩散规划算法,通过滚动时域去噪仅在最终干净轨迹上施加约束,相比于现有方法提升了安全性和性能。

0 人收藏 0 人点赞
#diffusion-model

用于全波形反演的扩散模型解耦潜在优化

arXiv cs.LG · 2026-06-15 缓存

介绍了用于全波形反演的解耦潜在优化(DLO),该方法将潜在优化松弛为一个二次罚目标,在基准测试中优于经典方法及基于扩散的方法,同时保留了平滑速度初始化的特性。

0 人收藏 0 人点赞
#diffusion-model

Track2View:通过配对3D点轨迹实现4D一致的相机控制视频生成

Hugging Face Daily Papers · 2026-06-14 缓存

Track2View 通过将视频扩散转换器基于配对3D点轨迹进行条件生成,从视频中生成新的相机视角,实现了最先进的视觉质量,并显著降低了旋转和平移误差。

0 人收藏 0 人点赞
#diffusion-model

APCyc:通过自动化环化进行性质导向的环肽设计

arXiv cs.AI · 2026-06-12 缓存

APCyc是一个靶点感知的生成框架,通过显式建模环化模式并利用贝叶斯后验引导,设计具有可控理化性质的环肽。

0 人收藏 0 人点赞
#diffusion-model

Pythagoras-Prover:通过增强型Lean形式化方法推进高效形式化证明

arXiv cs.AI · 2026-06-12 缓存

Pythagoras-Prover 是一个计算高效的Lean定理证明器系列,通过课程监督微调和新颖的增强型Lean形式化技术实现了强劲性能。4B模型在MiniF2F-Test上以pass@32超越了DeepSeek-Prover-V2-671B,32B模型则在开源证明器中树立了新的最先进水平。

0 人收藏 0 人点赞
#diffusion-model

[Talk] Text Diffusion — Google DeepMind's Brendan O’Donoghue

Reddit r/LocalLLaMA · 2026-06-11 缓存

DeepMind研究员Brendan O'Donoghue深入介绍文本扩散模型,通过迭代去噪生成文本,相比自回归模型延迟更低但吞吐量受限,并展示自修正和动态计算等独特优势。

0 人收藏 0 人点赞
#diffusion-model

谷歌最新DiffusionGemma开源AI模型速度提升4倍

Ars Technica · 2026-06-10 缓存

谷歌发布了DiffusionGemma,这是一个实验性的开源文本生成扩散模型,相比自回归模型实现了4倍速度提升,并针对本地处理进行了优化。

0 人收藏 0 人点赞
#diffusion-model

Lip Forcing: 少步自回归扩散实现实时唇形同步

Hugging Face Daily Papers · 2026-06-09 缓存

本文介绍Lip Forcing,首个用于实时视频到视频唇形同步的自回归扩散方法。通过将14B教师模型蒸馏为因果学生模型,并仅使用两步去噪,该方法在1.3B规模下实现了31 FPS的流式处理,比同规模双向模型快17.6倍。

0 人收藏 0 人点赞
#diffusion-model

@XAMTO_AI: ControlNet作者敏神又搞出新东西了! 新开源的FramePack直接把视频生成的门槛打了下来——6GB显存就能跑,13B模型生成1分钟30帧视频,在RTX 4090上只要1.5秒出一帧,这配置要求放以前根本不敢想。 核心思路是逐帧…

X AI KOLs Timeline · 2026-06-08 缓存

ControlNet作者敏神开源了FramePack视频生成模型,仅需6GB显存即可运行13B模型,生成1分钟30帧视频,RTX 4090上每帧1.5秒,并提供Windows一键包。

0 人收藏 0 人点赞
#diffusion-model

MilliVid:用于视频生成中长程一致性的分层潜在变量

Hugging Face Daily Papers · 2026-06-08 缓存

本文介绍了MilliVid,一种通过使用多尺度自编码器将帧压缩为分层标记,然后使用由粗到细的扩散模型生成它们,从而提升视频生成中长程一致性的方法,在Minecraft视频上超越了基线模型。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈