vision-transformer

标签

Cards List
#vision-transformer

Patch-PODiff-ViT: 基于分块POD的结构化潜在扩散模型,用于超分辨率和不确定性量化

arXiv cs.LG · 2天前 缓存

Patch-PODiff-ViT 引入了一种结构化潜在扩散框架,利用分块本征正交分解 (POD) 实现超分辨率和不确定性量化,通过固定的线性正交基和预测方差的解析传播实现高效扩散。

0 人收藏 0 人点赞
#vision-transformer

MuSViT:面向乐谱表示的基础视觉模型

Hugging Face Daily Papers · 3天前 缓存

MuSViT是首个面向乐谱的基础视觉模型,通过掩码自编码器在数百万页乐谱上预训练,在乐谱识别和符号检测任务中取得卓越性能。

0 人收藏 0 人点赞
#vision-transformer

我用自对弈强化学习制作了一个超人类水平的 Generals.io 智能体 [P]

Reddit r/MachineLearning · 2026-06-24

使用基于 JAX 的流水线和 Vision Transformer,通过自对弈强化学习训练了一个超人类水平的 Generals.io 智能体。在人类 1v1 排行榜上排名第一;所有代码和一个快速的 JAX 模拟器均已开源。

0 人收藏 0 人点赞
#vision-transformer

HYDRA-X: 原生统一多模态模型与整体视觉分词器

Hugging Face Daily Papers · 2026-06-11 缓存

HYDRA-X 提出了一种统一的多模态模型,将图像和视频分词集成到单个视觉变换器中,在理解和生成任务上均取得了强劲性能。

0 人收藏 0 人点赞
#vision-transformer

利用测试时训练线性化视觉Transformer

Hugging Face Daily Papers · 2026-05-28 缓存

本文提出了一种方法,将预训练的Softmax注意力模型转换为线性复杂度的测试时训练(TTT)架构,在显著加速推理的同时,实现了与微调Softmax模型相当的文生图质量。该方法通过对Stable Diffusion 3.5进行线性化得到SD3.5-T^5,在1K分辨率下实现1.32倍加速。

0 人收藏 0 人点赞
#vision-transformer

视觉变换器模型的Rust实现

Reddit r/ArtificialInteligence · 2026-05-24

一个用于构建和实验视觉变换器(ViT)模型的Rust crate,提供类型化配置、可重用结构体以及可运行的示例,适用于研究和生产环境。

0 人收藏 0 人点赞
#vision-transformer

用于守恒律的稳健基础模型:通过循环视觉转换器将上下文注入通量神经算子

arXiv cs.LG · 2026-05-08 缓存

本文提出了一种新架构,将 Flux 神经算子与循环视觉转换器相结合,作为求解守恒律的基础模型。该模型在无需显式获取控制方程的情况下,在多种保守系统中展示了稳健的泛化能力和长期预测能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈