标签
一条推文解释了Transformer模型中注意力机制的核心公式:Q × Kᵀ 计算相关性,Softmax 将其转换为概率,V 提供内容,构成了现代AI的基础。
文章讨论了AI模型诞生的随意性,提出从物理学模型中获得灵感并建立备选模型资料库,将选模型过程工程化的想法。
一位开发者用TypeScript从头构建了一个Transformer模型,包括自定义的自动求导引擎,并将其作为开源教育工具发布在GitHub上。
一位知乎答主半年前的预测——下一个Transformer将吸收循环、递归状态、稀疏路由和潜在推理——随着Loop Engineering的推进,正变得越来越有现实意义。本文探讨了未来的Transformer架构如何演变为混合模型:将线性复杂度的层用于背景上下文,注意力机制用于精确推理,再加上更细粒度的稀疏性和原生的System 2推理。
本文介绍了Proper Scoring Ensemble Filter (PSEF),一种基于Transformer的贝叶斯滤波方法,通过在合成状态-观测轨迹上应用严格适当评分规则来训练分析映射。该方法在非线性、非高斯滤波任务中展现出优于传统方法和基于学习的方法的性能。
本文提出使用稀疏自编码器检测Transformer的分布外输入,包括拼写错误和越狱提示,通过分析虚假概念激活。该方法实现了一种基于机制的微调策略,以提高LLM的鲁棒性。
提出TempoWave,一种即插即用的时间小波数字接口,将时间序列观测值映射为基于多小波系数的逐位嵌入,改进了基于LLM的时间序列预测,并在多个基准上达到最先进水平。
PMDformer 引入了补丁均值解耦和专用注意力机制,以改进长期时间序列预测中的形状相似性建模,在多个基准测试上优于现有方法。
Jayden Teoh提出Next-Latent Prediction(NextLat),一种自监督学习方法,教Transformer学习预测下一个隐状态,从而形成紧凑的世界模型,用于推理和规划,并通过自推测解码将推理速度提升3.3倍。
探讨了Transformer推理中KV缓存日益增长的内存瓶颈,解释了为何像Mamba和RWKV这样的固定大小内存的替代架构重新获得关注。
本文展示了在XL-Sum英语语料库上微调PEGASUS的方法,在ROUGE评分上相比基线mT5模型取得了显著提升,达到了当前最优结果。
提出用于金融欺诈检测的多流欺诈Transformer(MSFT),该模型使用Transformer独立编码交易、登录和风险事件流,并通过时间感知位置编码和门控融合进行融合,在大型数据集上实现了0.9961的AUROC。
本文研究了为何累积的、依赖于token的正交变换(如PaTH Attention中使用的以及简化版SO(2)旋转变体)能使Transformer实现长度外推。论文证明此类变换在有限步后变得不连贯,从而抑制对远距离token的注意力;同时从理论和实验上表明该机制能改善外推,但在极端上下文长度下性能最终会下降。
本文介绍了LDM-v0,一个在来自数千个多样强化学习环境的轨迹上离线训练的大决策模型,证明了单一的Transformer策略可以在机器人、自动驾驶、库存管理、网络安全、交易和视频游戏等领域匹配特定任务策略的性能。
介绍ICML 2026论文Functional Attention,将函数作为第一公民,用结构化线性算子替代softmax点对点相似度,解决传统Transformer处理连续函数时离散化、分辨率敏感和计算复杂度高的问题,在PDE求解、3D分割等任务上达到或超过SOTA,并具良好OOD泛化能力。
Christopher Manning 作为AGI峰会的主旨演讲者受到关注,突出介绍他在自然语言处理方面的开创性研究,包括GloVe和注意力机制,以及他在Stanford的角色。
介绍了 HDD-RoPE,这是旋转位置编码的一种扩展,它使用高维块和数据相关的旋转速率,在 TinyStories 数据集上显示出比 xPos 更快的收敛速度。
一条推文介绍了《Transformer Cookbook》这篇论文,该论文遵循RASP论文,对在transformer权重中硬编码算法(加法、查找、分支)提供了优美的介绍。
提出了一种知识引导的两阶段迁移学习框架,采用轻量级GPT-2风格的Transformer,用于有限数据下的跨域轴承故障诊断,在仅使用10%标记数据的情况下实现了92.61%的准确率。
本文提出H-Res,一种通过塑形关联记忆的能量景观来适应大型Transformer模型的方法,无需修改权重或添加提示,保留了记忆容量,且性能优于LoRA。