diffusion-model

#diffusion-model

基于CKM的通信感知无人机城市巡检智能轨迹优化

arXiv cs.LG ↗ · 3天前缓存

本文提出了一种基于信道知识地图（CKM）的多无人机巡检轨迹规划框架，利用扩散模型重建高保真信道质量图，并结合图注意力网络与软演员-评论家算法实现通信感知路径规划。

0 人收藏 0 人点赞

#diffusion-model

Prob-BBDM：一种用于MRI序列图像到图像翻译的概率性布朗桥扩散模型

arXiv cs.AI ↗ · 4天前缓存

本文介绍了Prob-BBDM，一种概率性布朗桥扩散模型，能够从2D轴向切片高效高质量地合成MRI序列，仅需4步扩散即可达到88.46% SSIM和26.09 dB PSNR，并在肿瘤分割中展现出临床实用性。

0 人收藏 0 人点赞

#diffusion-model

@charles_irl: dflash 高速运转

X AI KOLs Timeline ↗ · 4天前缓存

NVIDIA 宣布推出 DFlash，一种用于推测解码的开源块扩散模型，在 Blackwell GPU 上可实现高达 15 倍的推理吞吐量提升，同时保持交互性。

0 人收藏 0 人点赞

#diffusion-model

TryOnCrafter: 通过可渲染的4D试穿代理释放相机轨迹实现逼真的视频虚拟试穿

Hugging Face Daily Papers ↗ · 4天前缓存

本文提出了TryOnCrafter，一个用于相机可控视频虚拟试穿的新框架，利用可渲染的4D试穿代理和基于DiT的视频生成实现全方位视角探索，克服了现有方法依赖固定源相机轨迹的局限性。

0 人收藏 0 人点赞

#diffusion-model

我渴望在我的Strix Halo上获得15倍加速

Reddit r/LocalLLaMA ↗ · 4天前

Nvidia声称使用扩散模型在文本生成上实现15倍加速，一次性生成整个文本块。

0 人收藏 0 人点赞

#diffusion-model

能将任意图像转化为可玩幻觉的扩散模型！但本地运行，非数据中心

Reddit r/ArtificialInteligence ↗ · 4天前

一种扩散模型，能将任意图像转化为交互式可玩幻觉，在用户本地硬件上运行。

0 人收藏 0 人点赞

#diffusion-model

Krea 2 在 Hugging Face 上发布

Reddit r/LocalLLaMA ↗ · 4天前缓存

Krea 2 是一个拥有120亿参数的文本到图像扩散模型，以开放权重形式在 Hugging Face 上发布，提供了 Raw（基础版）和 Turbo（后训练版）检查点。

0 人收藏 0 人点赞

#diffusion-model

Vera：一种用于保持内容一致性的分层扩散视频编辑模型

Hugging Face Daily Papers ↗ · 6天前缓存

Vera 是一种分层扩散模型，专为视频编辑设计，通过生成编辑层和 Alpha 遮罩来保留源内容，并采用混合 Transformer（Mixture-of-Transformers）架构。

0 人收藏 0 人点赞

#diffusion-model

Inception Labs 的 Mercury 2 AI 在 Google 的 DiffusionGemma 擅长的领域击败了它（4分钟阅读）

TLDR AI ↗ · 6天前缓存

Inception Labs 发布了 Mercury 2，这是一个扩散语言模型，每秒可生成约1000个token，在 AIME 2026 基准测试中以 90% 对 69.1% 的得分优于 Google 的 DiffusionGemma，不过 DiffusionGemma 是免费且开源权重的，而 Mercury 2 是付费且闭源权重的 API 模型。

0 人收藏 0 人点赞

#diffusion-model