标签
本文介绍了 HEPA,这是一种用于预测时间序列中罕见关键事件的自监督架构,采用联合嵌入预测架构 (JEPA) 预训练策略。与领先的模型相比,它在多个领域均展现出卓越的性能,同时所需的标记数据和调整参数显著减少。
本文介绍了 ACSAC,一种强化学习方法,它使用带有因果 Transformer Q 网络的自适应 Chunk Size Actor-Critic 算法来处理长期限、稀疏奖励任务。通过根据状态需求动态调整动作 Chunk Size,该方法在操控任务中展示了最先进的性能。
一位开发者通过定制 ROM 和定点运算,成功在原版 Game Boy Color 上本地运行了量化版的 TinyStories Transformer 模型。
本文介绍了TTCD,这是一种新颖的框架,利用基于Transformer的特征学习和重建引导的信号蒸馏,从非平稳时间序列数据中进行时序因果发现。
EgoForce是一个单目3D手部重建框架,使用统一网络,包含可微分前臂表示、手臂-手部变换器和射线空间求解器,能够在不同相机模型下恢复绝对手部姿态和位置,在多个第一人称基准测试中达到了最先进的精度。
Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。
本文介绍了 INSET,这是一个统一的多模态模型,它将图像作为原生词汇嵌入到文本指令中,从而提高了在图像生成和编辑任务中处理复杂交错输入的能力。
快速字节潜在变换器(BLT-D)已被 ICML 2026 接收,它引入了一种文本扩散方法,用于并行字节级解码,以克服传统字节级语言模型的速度限制。
该论文介绍了 EΔ-MHC-Geo Transformer,这是一种新颖的架构,通过 Cayley 旋转和 Householder 反射实现具有保证正交性的自适应测地线运算。与 Deep Delta Learning 等现有基线方法相比,它展示了更优的长视域稳定性和范数保持能力。
本文提出了一种基于Transformer的模型,仅利用每日GPS运动轨迹对野生动物物种进行分类。在不同研究和区域的基准测试中,该模型在准确率方面优于LSTM和CNN。
GLiNER-Relex 是一个用于联合命名实体识别(NER)与关系提取(RE)的统一框架,利用共享的 Transformer 编码器实现零样本能力。该论文展示了模型在标准基准测试中具有竞争力的性能,并将其作为开源 Python 包发布。
Key-Value Means (KVM) 是一种新颖的注意力机制,结合了 Transformer 和 RNN 的优势,具有可控的计算复杂度和内存使用。它支持固定大小或增长状态,提供次二次方预填充时间和次线性状态增长,并且无需自定义内核即可实现。
DECO是一种稀疏MoE架构,仅激活20%的专家并配合3倍加速内核,即可达到与稠密Transformer相当的性能。该架构采用了基于ReLU的路由机制、可学习缩放因子以及NormSiLU激活函数。
该文章推荐了一个视频,系统讲解了塑造当今AI行业的10篇核心论文,涵盖Transformer、LoRA、RAG、Agents及MCP协议,旨在帮助工程师理清技术脉络。
一位用户分享了对“AI Engineering from Scratch”网站的重构设计,该网站是一本参考手册,通过原始数学实现来解释 Transformer 和反向传播等 AI 概念。
一门高效AI课程的第12讲笔记,涵盖 Transformer 与 LLM 基础知识,包括多头注意力机制、位置编码、KV 缓存,以及模型架构与推理效率之间的关联。内容阐释了 Transformer 中的设计选择如何影响内存占用、延迟表现和硬件效率。
HiDream-ai 发布了 HiDream-O1-Image-Dev,这是一个拥有 80 亿参数的开源图像生成模型,采用像素级统一 Transformer 架构,无需外部 VAE。该模型在 Artificial Analysis Text to Image Arena 排行榜中位列第 8,支持高达 2,048x2,048 的超高分辨率图像生成。
本文提出了一种框架,利用多头 Transformer 模型提前 30 分钟预测数据中心的 SLA 违约情况,并通过将规则编码为 JSON 进行训练,无需人工标注。
本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。