transformer

#transformer

HEPA：一种用于时间序列的自监督地平线条件化事件预测架构

arXiv cs.LG ↗ · 17小时前缓存

本文介绍了 HEPA，这是一种用于预测时间序列中罕见关键事件的自监督架构，采用联合嵌入预测架构 (JEPA) 预训练策略。与领先的模型相比，它在多个领域均展现出卓越的性能，同时所需的标记数据和调整参数显著减少。

0 人收藏 0 人点赞

#transformer

ACSAC：基于因果 Transformer Q 网络的自适应 Chunk Size Actor-Critic 方法

arXiv cs.LG ↗ · 17小时前缓存

本文介绍了 ACSAC，一种强化学习方法，它使用带有因果 Transformer Q 网络的自适应 Chunk Size Actor-Critic 算法来处理长期限、稀疏奖励任务。通过根据状态需求动态调整动作 Chunk Size，该方法在操控任务中展示了最先进的性能。

0 人收藏 0 人点赞

#transformer

我在原版 Game Boy Color 上成功运行了真正的 Transformer 语言模型！

Reddit r/LocalLLaMA ↗ · 22小时前

一位开发者通过定制 ROM 和定点运算，成功在原版 Game Boy Color 上本地运行了量化版的 TinyStories Transformer 模型。

0 人收藏 0 人点赞

#transformer

一个图灵完备神经网络的 PyTorch 库

arXiv cs.LG ↗ · 昨天缓存

一个 PyTorch 库，可根据图灵机描述编译神经网络，从而实现无需训练的精确模拟。

0 人收藏 0 人点赞

#transformer

TTCD：基于Transformer的非平稳时间序列数据集成时序因果发现

arXiv cs.LG ↗ · 昨天缓存

本文介绍了TTCD，这是一种新颖的框架，利用基于Transformer的特征学习和重建引导的信号蒸馏，从非平稳时间序列数据中进行时序因果发现。

0 人收藏 0 人点赞

#transformer

EgoForce: 前臂引导的相机空间3D手部姿态——来自单目第一人称相机

Hugging Face Daily Papers ↗ · 昨天缓存

EgoForce是一个单目3D手部重建框架，使用统一网络，包含可微分前臂表示、手臂-手部变换器和射线空间求解器，能够在不同相机模型下恢复绝对手部姿态和位置，在多个第一人称基准测试中达到了最先进的精度。

0 人收藏 0 人点赞

#transformer

Lite3R：一种高效的模型无关前馈3D重建框架

Hugging Face Daily Papers ↗ · 昨天缓存

Lite3R 是一个模型无关框架，通过稀疏线性注意力和 FP8 感知量化，提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时，它将延迟和内存占用降低了高达 2.4 倍。

0 人收藏 0 人点赞

#transformer

图像即句子：扩展交错指令以实现统一的视觉生成

Hugging Face Daily Papers ↗ · 昨天缓存

本文介绍了 INSET，这是一个统一的多模态模型，它将图像作为原生词汇嵌入到文本指令中，从而提高了在图像生成和编辑任务中处理复杂交错输入的能力。

0 人收藏 0 人点赞

#transformer

@JulieKallini: Fast Byte Latent Transformer 被 ICML 2026 接收！字节级语言模型有望摆脱子词分词器，但解码……

X AI KOLs Following ↗ · 2天前缓存

快速字节潜在变换器（BLT-D）已被 ICML 2026 接收，它引入了一种文本扩散方法，用于并行字节级解码，以克服传统字节级语言模型的速度限制。

0 人收藏 0 人点赞

#transformer

E$\Delta$-MHC-Geo Transformer：具有保证正交性的自适应测地线运算

arXiv cs.LG ↗ · 2天前缓存

该论文介绍了 EΔ-MHC-Geo Transformer，这是一种新颖的架构，通过 Cayley 旋转和 Householder 反射实现具有保证正交性的自适应测地线运算。与 Deep Delta Learning 等现有基线方法相比，它展示了更优的长视域稳定性和范数保持能力。

0 人收藏 0 人点赞

#transformer

基于Transformer的利用每日运动轨迹进行野生动物物种分类

arXiv cs.LG ↗ · 2天前缓存

本文提出了一种基于Transformer的模型，仅利用每日GPS运动轨迹对野生动物物种进行分类。在不同研究和区域的基准测试中，该模型在准确率方面优于LSTM和CNN。

0 人收藏 0 人点赞

#transformer

GLiNER-Relex：联合命名实体识别与关系提取的统一框架

Hugging Face Daily Papers ↗ · 2天前缓存

GLiNER-Relex 是一个用于联合命名实体识别（NER）与关系提取（RE）的统一框架，利用共享的 Transformer 编码器实现零样本能力。该论文展示了模型在标准基准测试中具有竞争力的性能，并将其作为开源 Python 包发布。

0 人收藏 0 人点赞

#transformer

Key-Value Means

Hugging Face Daily Papers ↗ · 2天前缓存

Key-Value Means (KVM) 是一种新颖的注意力机制，结合了 Transformer 和 RNN 的优势，具有可控的计算复杂度和内存使用。它支持固定大小或增长状态，提供次二次方预填充时间和次线性状态增长，并且无需自定义内核即可实现。

0 人收藏 0 人点赞

#transformer

DECO：端侧设备上媲美稠密性能的稀疏混合专家模型

Hugging Face Daily Papers ↗ · 2天前缓存

DECO是一种稀疏MoE架构，仅激活20%的专家并配合3倍加速内核，即可达到与稠密Transformer相当的性能。该架构采用了基于ReLU的路由机制、可学习缩放因子以及NormSiLU激活函数。

0 人收藏 0 人点赞

#transformer

@VincentLogic: 这视频简直是 AI 工程师的“必修课”清单！从最基础的 Transformer 架构，到 LoRA 微调、RAG、Agents，甚至最新的 MCP 协议，把这 10 篇塑造了当今 AI 行业的核心论文讲得明明白白。如果你也想深入理解大…

X AI KOLs Timeline ↗ · 4天前

该文章推荐了一个视频，系统讲解了塑造当今AI行业的10篇核心论文，涵盖Transformer、LoRA、RAG、Agents及MCP协议，旨在帮助工程师理清技术脉络。

0 人收藏 0 人点赞

#transformer

@ghumare64: 我很喜欢这个规范，因此重新设计了 https://aiengineeringfromscratch.com —— 确实非常精美。

X AI KOLs Timeline ↗ · 4天前缓存

一位用户分享了对“AI Engineering from Scratch”网站的重构设计，该网站是一本参考手册，通过原始数学实现来解释 Transformer 和反向传播等 AI 概念。

0 人收藏 0 人点赞

#transformer

@ickma2311: 高效AI 第12讲：Transformer 与 LLM 本讲不仅介绍 LLM 的工作原理，还深入讲解其底层构建模块……

X AI KOLs Timeline ↗ · 4天前缓存

一门高效AI课程的第12讲笔记，涵盖 Transformer 与 LLM 基础知识，包括多头注意力机制、位置编码、KV 缓存，以及模型架构与推理效率之间的关联。内容阐释了 Transformer 中的设计选择如何影响内存占用、延迟表现和硬件效率。

0 人收藏 0 人点赞

#transformer

HiDream-ai/HiDream-O1-Image-Dev

Hugging Face Models Trending ↗ · 5天前缓存

HiDream-ai 发布了 HiDream-O1-Image-Dev，这是一个拥有 80 亿参数的开源图像生成模型，采用像素级统一 Transformer 架构，无需外部 VAE。该模型在 Artificial Analysis Text to Image Arena 排行榜中位列第 8，支持高达 2,048x2,048 的超高分辨率图像生成。

0 人收藏 0 人点赞

#transformer

用于数据中心 SLA 合规监控的多头注意力方法

arXiv cs.LG ↗ · 5天前缓存

本文提出了一种框架，利用多头 Transformer 模型提前 30 分钟预测数据中心的 SLA 违约情况，并通过将规则编码为 JSON 进行训练，无需人工标注。

0 人收藏 0 人点赞

#transformer

面向大型语言模型归因引导的持续学习

arXiv cs.LG ↗ · 5天前缓存

本文提出了一种面向大型语言模型的归因引导持续微调框架，该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度，在保持新任务性能的同时缓解了灾难性遗忘。

0 人收藏 0 人点赞

transformer

提交意见反馈