标签
深入理解 FlashAttention 的可视化讲解,涵盖内存优化和算子融合,以实现语言模型训练中的高效注意力计算。
一位开发者使用一个小型900KB的Transformer模型进行过拟合,将100MB的CSV文件压缩到7MB,展示了一种使用过拟合神经网络进行数据压缩的新颖方法。
Wan-Streamer是一个统一的端到端多模态模型,用于实时音视频交互,采用因果注意力机制,并集成处理视觉、音频和文本模态,实现了亚秒级延迟。
该推文推荐了斯坦福大学CS336课程及一系列学习资源,作为加入OpenAI的准备路径。
NVIDIA 发布了 GLM-5.2-NVFP4,这是 ZAI 的 GLM-5.2 MoE 语言模型的量化版本,使用 Model Optimizer 进行了优化,适用于 NVIDIA Blackwell GPU 上的推理。
对里程碑式论文《Attention Is All You Need》的反思,着重说明了如何通过去除循环并完全依赖注意力机制彻底改变了人工智能,并催生了像GPT和Claude这样的现代大语言模型。
一本全面的实践者指南,涵盖构建自主AI系统的整个技术栈,从基础Transformer架构到多智能体协调和生产部署等高级智能体主题。
本文介绍了Tapered Language Models (TLMs),一种架构原则,将更多参数分配给早期层,更少分配给后期层,在不增加额外成本的情况下,持续改善多种架构的困惑度和下游性能。
SupraLabs 发布了 Supra-A2A-Nano-Exp,这是一个小型任意到任意自回归模型,将文本和图像标记化统一到单个 Transformer 中,作为教育原型而非生产就绪系统。
三天内,Transformer 论文合著者 Noam Shazeer 离开谷歌加入 OpenAI,诺贝尔奖得主、AlphaFold 负责人 John Jumper 离开谷歌 DeepMind 加入 Anthropic,标志着 AI 领域重大人才变动。
一篇比较RNNs、Transformers和SSMs中记忆设计的技术分析,主张关键问题在于序列状态应存储于何处,而非哪种架构更优。讨论了压缩隐状态、增长的KV缓存以及模型连接中类突触记忆之间的权衡。
MosiAI发布了MOSS-TTS Local Transformer v1.5,这是一款支持语音克隆、30多种语言以及48 kHz高质量输出的文本转语音模型。
The article provides a detailed explanation of Mixture of Experts (MoE) in transformers, covering routing, load balancing, and recent innovations like fine-grained experts. It also highlights the significance of Noam Shazeer's research contributions and his move from Google to OpenAI.
诺姆·沙泽尔是Transformer架构的共同发明者,也是Gemini的关键人物,他将离开谷歌加盟OpenAI,这是他在27亿美元交易中被请回后第二次离开谷歌。
Noam Shazeer,Transformer 架构的共同作者和谷歌 Gemini 模型技术主管,再次离开谷歌并正式加盟 OpenAI。他将专注于寻找全新的大模型底层架构并推动 Transformer 演化的研究。
本文介绍QG-MIL,一种门控Transformer聚合器,缓解了医学影像多实例学习中的注意力集中问题,无需辅助损失即可实现领域无关的性能。
Grouped Query Experts (GQE) 通过在分组查询注意力之上应用混合专家层来提高Transformer效率,每个token有选择地激活查询头,同时保持键值缓存优势,在2.5亿参数规模下,以一半的查询头计算量达到与基线相同的准确率。
EveryonesLLM是一个开源的基于Google Colab的教程仓库,用于从零开始构建nanoGPT风格的LLM,包含逐步章节,涵盖数据加载、嵌入、注意力机制、训练和指令调优。
LoopCoder-V2 是一个基于 Parallel Loop Transformer (PLT) 构建的 7B 参数指令调优代码模型,展示了非单调测试时扩展特性,其中两个循环提供了最佳的收益-成本权衡,并在代码生成和推理基准测试上显著优于基线模型。
推测了从循环transformer到超循环transformer再到循环世界模型的演进,暗示了一个新的研究方向。