transformer

标签

Cards List
#transformer

@thtrkim: FlashAttention 的手动可视化深入讲解(使用 Excalidraw 绘制)https://winterrykim.github.io/blog/2026/training-lm-…

X AI KOLs Timeline · 5天前 缓存

深入理解 FlashAttention 的可视化讲解,涵盖内存优化和算子融合,以实现语言模型训练中的高效注意力计算。

0 人收藏 0 人点赞
#transformer

将900KB Transformer过拟合,把100MB CSV压缩到7MB

Hacker News Top · 5天前 缓存

一位开发者使用一个小型900KB的Transformer模型进行过拟合,将100MB的CSV文件压缩到7MB,展示了一种使用过拟合神经网络进行数据压缩的新颖方法。

0 人收藏 0 人点赞
#transformer

Wan-Streamer v0.1:端到端实时交互基础模型

Hugging Face Daily Papers · 6天前 缓存

Wan-Streamer是一个统一的端到端多模态模型,用于实时音视频交互,采用因果注意力机制,并集成处理视觉、音频和文本模态,实现了亚秒级延迟。

0 人收藏 0 人点赞
#transformer

@li9292: 如何加入OpenAI?只需精通以下课程: 1. 斯坦福大学的“从零开始的语言建模”课程:http://cs336.stanford.edu/spring2025/ 2. 在掌握广度之后,她逐一深入研究概念,使用博客、论文、与 ChatGP…

X AI KOLs Timeline · 6天前 缓存

该推文推荐了斯坦福大学CS336课程及一系列学习资源,作为加入OpenAI的准备路径。

0 人收藏 0 人点赞
#transformer

nvidia/GLM-5.2-NVFP4

Hugging Face Models Trending · 6天前 缓存

NVIDIA 发布了 GLM-5.2-NVFP4,这是 ZAI 的 GLM-5.2 MoE 语言模型的量化版本,使用 Model Optimizer 进行了优化,适用于 NVIDIA Blackwell GPU 上的推理。

0 人收藏 0 人点赞
#transformer

Attention Is All You Need

Reddit r/ArtificialInteligence · 6天前

对里程碑式论文《Attention Is All You Need》的反思,着重说明了如何通过去除循环并完全依赖注意力机制彻底改变了人工智能,并催生了像GPT和Claude这样的现代大语言模型。

0 人收藏 0 人点赞
#transformer

智能体AI的搭便车指南:从基础到系统

Hugging Face Daily Papers · 2026-06-22 缓存

一本全面的实践者指南,涵盖构建自主AI系统的整个技术栈,从基础Transformer架构到多智能体协调和生产部署等高级智能体主题。

0 人收藏 0 人点赞
#transformer

Tapered Language Models

Hugging Face Daily Papers · 2026-06-22 缓存

本文介绍了Tapered Language Models (TLMs),一种架构原则,将更多参数分配给早期层,更少分配给后期层,在不增加额外成本的情况下,持续改善多种架构的困惑度和下游性能。

0 人收藏 0 人点赞
#transformer

[新模型] SupraLabs 推出了 Any2Any 模型系列!

Reddit r/LocalLLaMA · 2026-06-21 缓存

SupraLabs 发布了 Supra-A2A-Nano-Exp,这是一个小型任意到任意自回归模型,将文本和图像标记化统一到单个 Transformer 中,作为教育原型而非生产就绪系统。

0 人收藏 0 人点赞
#transformer

三天内:Transformer 合著者 Noam Shazeer 离开谷歌加入 OpenAI,诺贝尔奖得主、AlphaFold 负责人 John Jumper 离开谷歌 DeepMind 加入 Anthropic

Reddit r/singularity · 2026-06-19

三天内,Transformer 论文合著者 Noam Shazeer 离开谷歌加入 OpenAI,诺贝尔奖得主、AlphaFold 负责人 John Jumper 离开谷歌 DeepMind 加入 Anthropic,标志着 AI 领域重大人才变动。

0 人收藏 0 人点赞
#transformer

RNNs vs Transformers vs SSMs:面向持续学习场景下AI记忆应存放于何处?

Reddit r/artificial · 2026-06-18

一篇比较RNNs、Transformers和SSMs中记忆设计的技术分析,主张关键问题在于序列状态应存储于何处,而非哪种架构更优。讨论了压缩隐状态、增长的KV缓存以及模型连接中类突触记忆之间的权衡。

0 人收藏 0 人点赞
#transformer

@MosiAI_Official: MOSS-TTS Local Transformer v1.5 现已推出。克隆任意声音。说任何语言。听到每一个细节。30多种语言,48 kHz …

X AI KOLs Following · 2026-06-18 缓存

MosiAI发布了MOSS-TTS Local Transformer v1.5,这是一款支持语音克隆、30多种语言以及48 kHz高质量输出的文本转语音模型。

0 人收藏 0 人点赞
#transformer

@jbhuang0604: Huge! It’s amazing how often Noam’s papers end up at the center of the field. In many tutorial videos I’ve made, they’v…

X AI KOLs Following · 2026-06-18 缓存

The article provides a detailed explanation of Mixture of Experts (MoE) in transformers, covering routing, load balancing, and recent innovations like fine-grained experts. It also highlights the significance of Noam Shazeer's research contributions and his move from Google to OpenAI.

0 人收藏 0 人点赞
#transformer

@ns123abc: “先生……诺姆·沙泽尔,发明Transformer的传奇人物……桑达尔花了27亿美元请回来领导Gemini的那位……”

X AI KOLs Timeline · 2026-06-18 缓存

诺姆·沙泽尔是Transformer架构的共同发明者,也是Gemini的关键人物,他将离开谷歌加盟OpenAI,这是他在27亿美元交易中被请回后第二次离开谷歌。

0 人收藏 0 人点赞
#transformer

@0xLogicrw: 谷歌 AI 核心人物、Gemini 模型技术主管 Noam Shazeer 再次离开谷歌,正式加盟竞争对手 OpenAI。OpenAI 向员工宣布,Shazeer 加盟后将专注于寻找全新的大模型底层架构,并推动 Transformer 架…

X AI KOLs Timeline · 2026-06-18 缓存

Noam Shazeer,Transformer 架构的共同作者和谷歌 Gemini 模型技术主管,再次离开谷歌并正式加盟 OpenAI。他将专注于寻找全新的大模型底层架构并推动 Transformer 演化的研究。

0 人收藏 0 人点赞
#transformer

QG-MIL:用于医学影像领域无关多实例学习的门控Transformer聚合器

Hugging Face Daily Papers · 2026-06-18 缓存

本文介绍QG-MIL,一种门控Transformer聚合器,缓解了医学影像多实例学习中的注意力集中问题,无需辅助损失即可实现领域无关的性能。

0 人收藏 0 人点赞
#transformer

Grouped Query Experts: GQA自注意力上的混合专家模型

Hugging Face Daily Papers · 2026-06-18 缓存

Grouped Query Experts (GQE) 通过在分组查询注意力之上应用混合专家层来提高Transformer效率,每个token有选择地激活查询头,同时保持键值缓存优势,在2.5亿参数规模下,以一半的查询头计算量达到与基线相同的准确率。

0 人收藏 0 人点赞
#transformer

@DanKornas: 每个层都有自己的笔记本,从零开始构建LLM就更容易了。EveryonesLLM是一个基于Google Colab的教程…

X AI KOLs Timeline · 2026-06-17 缓存

EveryonesLLM是一个开源的基于Google Colab的教程仓库,用于从零开始构建nanoGPT风格的LLM,包含逐步章节,涵盖数据加载、嵌入、注意力机制、训练和指令调优。

0 人收藏 0 人点赞
#transformer

Multilingual-Multimodal-NLP/LoopCoder-V2 · Hugging Face

Reddit r/LocalLLaMA · 2026-06-17 缓存

LoopCoder-V2 是一个基于 Parallel Loop Transformer (PLT) 构建的 7B 参数指令调优代码模型,展示了非单调测试时扩展特性,其中两个循环提供了最佳的收益-成本权衡,并在代码生成和推理基准测试上显著优于基线模型。

0 人收藏 0 人点赞
#transformer

@retr0sushi_: 循环transformer -> 超循环transformer -> 循环世界模型 ??

X AI KOLs Timeline · 2026-06-17 缓存

推测了从循环transformer到超循环transformer再到循环世界模型的演进,暗示了一个新的研究方向。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈