transformer

#transformer

通过学习的Token路由在Transformer中实现自适应计算深度

arXiv cs.LG ↗ · 5天前缓存

本文提出了Token-Selective Attention (TSA)，一种可微的token路由机制，它学习在每个token上跳过Transformer层中不必要的计算，从而在语言建模任务中将token层操作减少14-23%，且质量损失极小。

0 人收藏 0 人点赞

#transformer

快速字节潜在Transformer

Hugging Face Daily Papers ↗ · 5天前缓存

本文介绍了用于字节级语言模型的BLT扩散（BLT Diffusion）和投机解码技术，在保持生成质量的同时，显著降低了生成延迟和内存带宽成本。

0 人收藏 0 人点赞

#transformer

STARFlow2：连接语言模型与归一化流以实现统一的多模态生成

Hugging Face Daily Papers ↗ · 5天前缓存

STARFlow2 是一项新的研究论文，介绍了一种将语言模型与自回归归一化流相结合的架构，用于统一的多模态生成。它通过使用共享的因果掩码机制处理交错的文本-图像序列，解决了现有系统中的结构不匹配问题。

0 人收藏 0 人点赞

#transformer

RLDX-1 技术报告

Hugging Face Daily Papers ↗ · 2026-05-05 缓存

RLDX-1 是一种用于灵巧操作的多功能机器人策略，采用多流动作 Transformer（Multi-Stream Action Transformer）架构来整合异构模态，在现实世界任务中超越了现有的 VLA 模型。

0 人收藏 0 人点赞

#transformer

Soul Player C64 – 在 1 MHz Commodore 64 上运行的真正 Transformer

Hacker News Top ↗ · 2026-04-20 缓存

# gizmo64k/soulplayer-c64 来源：[https://github.com/gizmo64k/soulplayer-c64](https://github.com/gizmo64k/soulplayer-c64) # Soul Player C64 **一款在 1 MHz Commodore 64 上运行的真实 Transformer。** ``` .-------. | O O | | V | |..|---|..| # SOUL PLAYER C64 2.5万个参数。 2 层网络。真实的 Transformer。从软盘加载运行。你> 嗨 C64> 你好！这声音不错。真神奇！ ``` 一个 2 层仅解码器（Decoder-Only）Transformer —— 与 ChatGPT、Claude 和 Gemini 背后的架构相同 —— 采用手写 6502/

0 人收藏 0 人点赞

#transformer

@mubeitech: Transformer根本不是AI的终局。这是英伟达AI研究副总裁Sanja Fidler给出的断言。这位掌管英伟达空间智能实验室的负责人，看到的是当前架构的死穴。现在的模型训练成本太昂贵。对海量数据的依赖深不见底。必须在架构底…

X AI KOLs Timeline ↗ · 2026-04-20 缓存

英伟达AI研究副总裁Sanja Fidler断言Transformer并非AI的终局架构，指出当前模型训练成本过高、对海量数据依赖严重，需要在架构底层寻求新突破，新一代架构变种已开始涌现。

0 人收藏 0 人点赞

#transformer

robbyant/lingbot-map

Hugging Face Models Trending ↗ · 2026-04-16 缓存

LingBot-Map 是一个前馈式 3D 基础模型，用于流式 3D 重建，采用几何上下文转换器架构，在超过 10,000 帧的长序列上实现最先进的性能，并具有高效的 ~20 FPS 推理速度。

0 人收藏 0 人点赞

#transformer

用于流式 3D 重建的几何上下文 Transformer

Papers with Code Trending ↗ · 2026-04-15 缓存

介绍了 LingBot-Map，这是一种前馈式 3D 基础模型，采用几何上下文 Transformer 架构用于流式 3D 重建，能够在 20 FPS 的速率下实现稳定的实时性能。

0 人收藏 0 人点赞

#transformer

连续音频语言模型

Papers with Code Trending ↗ · 2025-09-08 缓存

本文介绍了连续音频语言模型（CALM），该模型使用连续帧而非离散token生成音频，以提升语音和音乐生成的保真度并降低计算成本。

0 人收藏 0 人点赞

#transformer

Whisper 介绍

OpenAI Blog ↗ · 2022-09-21 缓存

OpenAI 推出 Whisper，这是一个端到端的编码器-解码器 Transformer 模型，在大规模多样化音频数据上进行训练，可提供强大的多语言语音识别、语言识别和语音到英文翻译功能。Whisper 在多样化数据集上的错误率比专业模型低 50%，并且在语音翻译方面优于有监督基准，尽管未针对特定数据集进行微调。

0 人收藏 0 人点赞

#transformer

Image GPT

OpenAI Blog ↗ · 2020-06-17 缓存

OpenAI的Image GPT（iGPT）将GPT-2 Transformer应用于像素序列，用于图像生成和分类。它展示了用于语言处理的相同架构能够以无监督的方式学习连贯的视觉特征，并在图像分类基准测试中实现具有竞争力的性能。

0 人收藏 0 人点赞

#transformer

Jukebox

OpenAI Blog ↗ · 2020-04-30 缓存

# Jukebox 来源：[https://openai.com/index/jukebox/](https://openai.com/index/jukebox/) 自动音乐生成的历史已有半个多世纪\.[1](https://openai.com/index/jukebox/#citation-bottom-1),[2](https://openai.com/index/jukebox/#citation-bottom-2),[3](https://openai.com/index/jukebox/#citation-bottom-3),[4](https://openai.com/index/jukebox/#citation-bottom-4)一个主要的方法是以钢琴卷的形式生成符号音乐，它指定了时序和音高

0 人收藏 0 人点赞

#transformer

MuseNet

OpenAI Blog ↗ · 2019-04-25 缓存

OpenAI 发布了 MuseNet，一个基于 GPT-2 架构的深度神经网络，通过从数十万个 MIDI 文件中学习模式，能够生成 4 分钟的音乐作品，包含 10 种乐器。该模型可以结合多种音乐风格并以新颖的方式融合它们。

0 人收藏 0 人点赞

#transformer

更好的语言模型及其影响

OpenAI Blog ↗ · 2019-02-14 缓存

OpenAI 推出 GPT-2，这是一个拥有 15 亿参数的基于 Transformer 的语言模型，在 40GB 的互联网文本上进行训练，在语言建模基准上达到了最先进的性能，并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑，仅公开发布了较小的模型和技术论文，而非完整的训练模型。

0 人收藏 0 人点赞

#transformer

Project Genie | Shine and Seek

YouTube AI Channels ↗ · 5天前缓存

Google DeepMind 的 Project Genie 是一个统一的世界模型，它将多样化的电子游戏视为条件视频预测任务，从而生成并与这些游戏进行交互。

0 人收藏 1 人点赞

transformer

提交意见反馈