transformer

标签

Cards List
#transformer

HEPA:一种用于时间序列的自监督地平线条件化事件预测架构

arXiv cs.LG · 17小时前 缓存

本文介绍了 HEPA,这是一种用于预测时间序列中罕见关键事件的自监督架构,采用联合嵌入预测架构 (JEPA) 预训练策略。与领先的模型相比,它在多个领域均展现出卓越的性能,同时所需的标记数据和调整参数显著减少。

0 人收藏 0 人点赞
#transformer

ACSAC:基于因果 Transformer Q 网络的自适应 Chunk Size Actor-Critic 方法

arXiv cs.LG · 17小时前 缓存

本文介绍了 ACSAC,一种强化学习方法,它使用带有因果 Transformer Q 网络的自适应 Chunk Size Actor-Critic 算法来处理长期限、稀疏奖励任务。通过根据状态需求动态调整动作 Chunk Size,该方法在操控任务中展示了最先进的性能。

0 人收藏 0 人点赞
#transformer

我在原版 Game Boy Color 上成功运行了真正的 Transformer 语言模型!

Reddit r/LocalLLaMA · 22小时前

一位开发者通过定制 ROM 和定点运算,成功在原版 Game Boy Color 上本地运行了量化版的 TinyStories Transformer 模型。

0 人收藏 0 人点赞
#transformer

一个图灵完备神经网络的 PyTorch 库

arXiv cs.LG · 昨天 缓存

一个 PyTorch 库,可根据图灵机描述编译神经网络,从而实现无需训练的精确模拟。

0 人收藏 0 人点赞
#transformer

TTCD:基于Transformer的非平稳时间序列数据集成时序因果发现

arXiv cs.LG · 昨天 缓存

本文介绍了TTCD,这是一种新颖的框架,利用基于Transformer的特征学习和重建引导的信号蒸馏,从非平稳时间序列数据中进行时序因果发现。

0 人收藏 0 人点赞
#transformer

EgoForce: 前臂引导的相机空间3D手部姿态——来自单目第一人称相机

Hugging Face Daily Papers · 昨天 缓存

EgoForce是一个单目3D手部重建框架,使用统一网络,包含可微分前臂表示、手臂-手部变换器和射线空间求解器,能够在不同相机模型下恢复绝对手部姿态和位置,在多个第一人称基准测试中达到了最先进的精度。

0 人收藏 0 人点赞
#transformer

Lite3R:一种高效的模型无关前馈3D重建框架

Hugging Face Daily Papers · 昨天 缓存

Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。

0 人收藏 0 人点赞
#transformer

图像即句子:扩展交错指令以实现统一的视觉生成

Hugging Face Daily Papers · 昨天 缓存

本文介绍了 INSET,这是一个统一的多模态模型,它将图像作为原生词汇嵌入到文本指令中,从而提高了在图像生成和编辑任务中处理复杂交错输入的能力。

0 人收藏 0 人点赞
#transformer

@JulieKallini: Fast Byte Latent Transformer 被 ICML 2026 接收!字节级语言模型有望摆脱子词分词器,但解码……

X AI KOLs Following · 2天前 缓存

快速字节潜在变换器(BLT-D)已被 ICML 2026 接收,它引入了一种文本扩散方法,用于并行字节级解码,以克服传统字节级语言模型的速度限制。

0 人收藏 0 人点赞
#transformer

E$\Delta$-MHC-Geo Transformer:具有保证正交性的自适应测地线运算

arXiv cs.LG · 2天前 缓存

该论文介绍了 EΔ-MHC-Geo Transformer,这是一种新颖的架构,通过 Cayley 旋转和 Householder 反射实现具有保证正交性的自适应测地线运算。与 Deep Delta Learning 等现有基线方法相比,它展示了更优的长视域稳定性和范数保持能力。

0 人收藏 0 人点赞
#transformer

基于Transformer的利用每日运动轨迹进行野生动物物种分类

arXiv cs.LG · 2天前 缓存

本文提出了一种基于Transformer的模型,仅利用每日GPS运动轨迹对野生动物物种进行分类。在不同研究和区域的基准测试中,该模型在准确率方面优于LSTM和CNN。

0 人收藏 0 人点赞
#transformer

GLiNER-Relex:联合命名实体识别与关系提取的统一框架

Hugging Face Daily Papers · 2天前 缓存

GLiNER-Relex 是一个用于联合命名实体识别(NER)与关系提取(RE)的统一框架,利用共享的 Transformer 编码器实现零样本能力。该论文展示了模型在标准基准测试中具有竞争力的性能,并将其作为开源 Python 包发布。

0 人收藏 0 人点赞
#transformer

Key-Value Means

Hugging Face Daily Papers · 2天前 缓存

Key-Value Means (KVM) 是一种新颖的注意力机制,结合了 Transformer 和 RNN 的优势,具有可控的计算复杂度和内存使用。它支持固定大小或增长状态,提供次二次方预填充时间和次线性状态增长,并且无需自定义内核即可实现。

0 人收藏 0 人点赞
#transformer

DECO:端侧设备上媲美稠密性能的稀疏混合专家模型

Hugging Face Daily Papers · 2天前 缓存

DECO是一种稀疏MoE架构,仅激活20%的专家并配合3倍加速内核,即可达到与稠密Transformer相当的性能。该架构采用了基于ReLU的路由机制、可学习缩放因子以及NormSiLU激活函数。

0 人收藏 0 人点赞
#transformer

@VincentLogic: 这视频简直是 AI 工程师的“必修课”清单! 从最基础的 Transformer 架构,到 LoRA 微调、RAG、Agents,甚至最新的 MCP 协议,把这 10 篇塑造了当今 AI 行业的核心论文讲得明明白白。 如果你也想深入理解大…

X AI KOLs Timeline · 4天前

该文章推荐了一个视频,系统讲解了塑造当今AI行业的10篇核心论文,涵盖Transformer、LoRA、RAG、Agents及MCP协议,旨在帮助工程师理清技术脉络。

0 人收藏 0 人点赞
#transformer

@ghumare64: 我很喜欢这个规范,因此重新设计了 https://aiengineeringfromscratch.com —— 确实非常精美。

X AI KOLs Timeline · 4天前 缓存

一位用户分享了对“AI Engineering from Scratch”网站的重构设计,该网站是一本参考手册,通过原始数学实现来解释 Transformer 和反向传播等 AI 概念。

0 人收藏 0 人点赞
#transformer

@ickma2311: 高效AI 第12讲:Transformer 与 LLM 本讲不仅介绍 LLM 的工作原理,还深入讲解其底层构建模块……

X AI KOLs Timeline · 4天前 缓存

一门高效AI课程的第12讲笔记,涵盖 Transformer 与 LLM 基础知识,包括多头注意力机制、位置编码、KV 缓存,以及模型架构与推理效率之间的关联。内容阐释了 Transformer 中的设计选择如何影响内存占用、延迟表现和硬件效率。

0 人收藏 0 人点赞
#transformer

HiDream-ai/HiDream-O1-Image-Dev

Hugging Face Models Trending · 5天前 缓存

HiDream-ai 发布了 HiDream-O1-Image-Dev,这是一个拥有 80 亿参数的开源图像生成模型,采用像素级统一 Transformer 架构,无需外部 VAE。该模型在 Artificial Analysis Text to Image Arena 排行榜中位列第 8,支持高达 2,048x2,048 的超高分辨率图像生成。

0 人收藏 0 人点赞
#transformer

用于数据中心 SLA 合规监控的多头注意力方法

arXiv cs.LG · 5天前 缓存

本文提出了一种框架,利用多头 Transformer 模型提前 30 分钟预测数据中心的 SLA 违约情况,并通过将规则编码为 JSON 进行训练,无需人工标注。

0 人收藏 0 人点赞
#transformer

面向大型语言模型归因引导的持续学习

arXiv cs.LG · 5天前 缓存

本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈