transformer

#transformer

@thtrkim: FlashAttention 的手动可视化深入讲解（使用 Excalidraw 绘制）https://winterrykim.github.io/blog/2026/training-lm-…

X AI KOLs Timeline ↗ · 5天前缓存

深入理解 FlashAttention 的可视化讲解，涵盖内存优化和算子融合，以实现语言模型训练中的高效注意力计算。

0 人收藏 0 人点赞

#transformer

将900KB Transformer过拟合，把100MB CSV压缩到7MB

Hacker News Top ↗ · 5天前缓存

一位开发者使用一个小型900KB的Transformer模型进行过拟合，将100MB的CSV文件压缩到7MB，展示了一种使用过拟合神经网络进行数据压缩的新颖方法。

0 人收藏 0 人点赞

#transformer

Wan-Streamer v0.1：端到端实时交互基础模型

Hugging Face Daily Papers ↗ · 6天前缓存

Wan-Streamer是一个统一的端到端多模态模型，用于实时音视频交互，采用因果注意力机制，并集成处理视觉、音频和文本模态，实现了亚秒级延迟。

0 人收藏 0 人点赞

#transformer

@li9292: 如何加入OpenAI？只需精通以下课程： 1. 斯坦福大学的“从零开始的语言建模”课程：http://cs336.stanford.edu/spring2025/ 2. 在掌握广度之后，她逐一深入研究概念，使用博客、论文、与 ChatGP…

X AI KOLs Timeline ↗ · 6天前缓存

该推文推荐了斯坦福大学CS336课程及一系列学习资源，作为加入OpenAI的准备路径。

0 人收藏 0 人点赞

#transformer

nvidia/GLM-5.2-NVFP4

Hugging Face Models Trending ↗ · 6天前缓存

NVIDIA 发布了 GLM-5.2-NVFP4，这是 ZAI 的 GLM-5.2 MoE 语言模型的量化版本，使用 Model Optimizer 进行了优化，适用于 NVIDIA Blackwell GPU 上的推理。

0 人收藏 0 人点赞

#transformer

Attention Is All You Need

Reddit r/ArtificialInteligence ↗ · 6天前

对里程碑式论文《Attention Is All You Need》的反思，着重说明了如何通过去除循环并完全依赖注意力机制彻底改变了人工智能，并催生了像GPT和Claude这样的现代大语言模型。

0 人收藏 0 人点赞

#transformer

智能体AI的搭便车指南：从基础到系统

Hugging Face Daily Papers ↗ · 2026-06-22 缓存

一本全面的实践者指南，涵盖构建自主AI系统的整个技术栈，从基础Transformer架构到多智能体协调和生产部署等高级智能体主题。

0 人收藏 0 人点赞

#transformer

Tapered Language Models

Hugging Face Daily Papers ↗ · 2026-06-22 缓存

本文介绍了Tapered Language Models (TLMs)，一种架构原则，将更多参数分配给早期层，更少分配给后期层，在不增加额外成本的情况下，持续改善多种架构的困惑度和下游性能。

0 人收藏 0 人点赞

#transformer

[新模型] SupraLabs 推出了 Any2Any 模型系列！

Reddit r/LocalLLaMA ↗ · 2026-06-21 缓存

SupraLabs 发布了 Supra-A2A-Nano-Exp，这是一个小型任意到任意自回归模型，将文本和图像标记化统一到单个 Transformer 中，作为教育原型而非生产就绪系统。

0 人收藏 0 人点赞

#transformer

三天内：Transformer 合著者 Noam Shazeer 离开谷歌加入 OpenAI，诺贝尔奖得主、AlphaFold 负责人 John Jumper 离开谷歌 DeepMind 加入 Anthropic

Reddit r/singularity ↗ · 2026-06-19

三天内，Transformer 论文合著者 Noam Shazeer 离开谷歌加入 OpenAI，诺贝尔奖得主、AlphaFold 负责人 John Jumper 离开谷歌 DeepMind 加入 Anthropic，标志着 AI 领域重大人才变动。

0 人收藏 0 人点赞

#transformer

RNNs vs Transformers vs SSMs：面向持续学习场景下AI记忆应存放于何处？

Reddit r/artificial ↗ · 2026-06-18

一篇比较RNNs、Transformers和SSMs中记忆设计的技术分析，主张关键问题在于序列状态应存储于何处，而非哪种架构更优。讨论了压缩隐状态、增长的KV缓存以及模型连接中类突触记忆之间的权衡。

0 人收藏 0 人点赞

#transformer

@MosiAI_Official: MOSS-TTS Local Transformer v1.5 现已推出。克隆任意声音。说任何语言。听到每一个细节。30多种语言，48 kHz …

X AI KOLs Following ↗ · 2026-06-18 缓存

MosiAI发布了MOSS-TTS Local Transformer v1.5，这是一款支持语音克隆、30多种语言以及48 kHz高质量输出的文本转语音模型。

0 人收藏 0 人点赞

#transformer

@jbhuang0604: Huge! It’s amazing how often Noam’s papers end up at the center of the field. In many tutorial videos I’ve made, they’v…

X AI KOLs Following ↗ · 2026-06-18 缓存

The article provides a detailed explanation of Mixture of Experts (MoE) in transformers, covering routing, load balancing, and recent innovations like fine-grained experts. It also highlights the significance of Noam Shazeer's research contributions and his move from Google to OpenAI.

0 人收藏 0 人点赞

#transformer