vision-transformer

#vision-transformer

Patch-PODiff-ViT: 基于分块POD的结构化潜在扩散模型，用于超分辨率和不确定性量化

arXiv cs.LG ↗ · 2天前缓存

Patch-PODiff-ViT 引入了一种结构化潜在扩散框架，利用分块本征正交分解 (POD) 实现超分辨率和不确定性量化，通过固定的线性正交基和预测方差的解析传播实现高效扩散。

0 人收藏 0 人点赞

#vision-transformer

Hugging Face Daily Papers ↗ · 3天前缓存

MuSViT是首个面向乐谱的基础视觉模型，通过掩码自编码器在数百万页乐谱上预训练，在乐谱识别和符号检测任务中取得卓越性能。

0 人收藏 0 人点赞

#vision-transformer

Reddit r/MachineLearning ↗ · 2026-06-24

使用基于 JAX 的流水线和 Vision Transformer，通过自对弈强化学习训练了一个超人类水平的 Generals.io 智能体。在人类 1v1 排行榜上排名第一；所有代码和一个快速的 JAX 模拟器均已开源。

0 人收藏 0 人点赞

#vision-transformer

Hugging Face Daily Papers ↗ · 2026-06-11 缓存

HYDRA-X 提出了一种统一的多模态模型，将图像和视频分词集成到单个视觉变换器中，在理解和生成任务上均取得了强劲性能。

0 人收藏 0 人点赞

#vision-transformer

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

本文提出了一种方法，将预训练的Softmax注意力模型转换为线性复杂度的测试时训练（TTT）架构，在显著加速推理的同时，实现了与微调Softmax模型相当的文生图质量。该方法通过对Stable Diffusion 3.5进行线性化得到SD3.5-T^5，在1K分辨率下实现1.32倍加速。

0 人收藏 0 人点赞

#vision-transformer

Reddit r/ArtificialInteligence ↗ · 2026-05-24

一个用于构建和实验视觉变换器（ViT）模型的Rust crate，提供类型化配置、可重用结构体以及可运行的示例，适用于研究和生产环境。

0 人收藏 0 人点赞

#vision-transformer

arXiv cs.LG ↗ · 2026-05-08 缓存

本文提出了一种新架构，将 Flux 神经算子与循环视觉转换器相结合，作为求解守恒律的基础模型。该模型在无需显式获取控制方程的情况下，在多种保守系统中展示了稳健的泛化能力和长期预测能力。

0 人收藏 0 人点赞