标签
Patch-PODiff-ViT 引入了一种结构化潜在扩散框架,利用分块本征正交分解 (POD) 实现超分辨率和不确定性量化,通过固定的线性正交基和预测方差的解析传播实现高效扩散。
MuSViT是首个面向乐谱的基础视觉模型,通过掩码自编码器在数百万页乐谱上预训练,在乐谱识别和符号检测任务中取得卓越性能。
使用基于 JAX 的流水线和 Vision Transformer,通过自对弈强化学习训练了一个超人类水平的 Generals.io 智能体。在人类 1v1 排行榜上排名第一;所有代码和一个快速的 JAX 模拟器均已开源。
HYDRA-X 提出了一种统一的多模态模型,将图像和视频分词集成到单个视觉变换器中,在理解和生成任务上均取得了强劲性能。
本文提出了一种方法,将预训练的Softmax注意力模型转换为线性复杂度的测试时训练(TTT)架构,在显著加速推理的同时,实现了与微调Softmax模型相当的文生图质量。该方法通过对Stable Diffusion 3.5进行线性化得到SD3.5-T^5,在1K分辨率下实现1.32倍加速。
一个用于构建和实验视觉变换器(ViT)模型的Rust crate,提供类型化配置、可重用结构体以及可运行的示例,适用于研究和生产环境。
本文提出了一种新架构,将 Flux 神经算子与循环视觉转换器相结合,作为求解守恒律的基础模型。该模型在无需显式获取控制方程的情况下,在多种保守系统中展示了稳健的泛化能力和长期预测能力。