通过卡尔曼滤波、克里金法和过程噪声的精确跟踪Transformer

arXiv cs.LG 论文

摘要

本文介绍了贝叶斯滤波Transformer(BFT),它通过精度加权注意力和卡尔曼更新残差将不确定性引入Transformer,从而提升了序列推荐和有噪声大语言模型微调的性能。

arXiv:2605.18832v1 公告类型:新论文 摘要:Transformer是现代人工智能的基础构建模块,但并未提供处理现实应用中普遍存在的\emph{不确定性}的原则性方法:序列推荐中历史稀疏的冷启动token、语言模型中异质的信号质量,以及由无约束softmax引起的注意力沉没。每个token都被视为具有相同的置信度。我们证明这种均匀性是我们\emph{贝叶斯滤波Transformer}(BFT)的一个退化情况:注意力变为精度加权克里金法,残差连接变为具有自适应增益的卡尔曼更新,而前馈网络变为一个动力学模型,通过雅可比矩阵加过程噪声规则传播精度。观测精度来自一个无参数的限制最大似然(REML)估计器,该估计器带有共轭贝叶斯先验。BFT可以以极小的开销替换任何Transformer层。在序列推荐中,BFT应用于三种主要架构在六个基准测试上取得了显著提升,其中冷启动用户和稀有物品(不确定性最高)的提升最大。在带有噪声数据的大语言模型监督微调中,BFT在两种情境下提升了鲁棒性:噪声监督(问答中的token标签损坏)和噪声上下文(带有真实RAG干扰项的检索增强问答)。一个单一的原则性修改——恢复精度——在经典序列建模和现代LLM场景中都打开了巨大的提升空间。
查看原文

相似文章

BA-T: 一种用于两视图束调整的迭代Transformer

Hugging Face Daily Papers

BA-T是一种用于两视图束调整的迭代Transformer架构,通过轻量设计仅使用传统解码器16%的参数,提升3D重建精度和跨视图一致性,性能与更大模型相当甚至更优。

基于强化学习的智能体Transformer可证明地学会搜索

arXiv cs.LG

本文从理论上研究了基于Transformer的策略如何从随机树环境中的强化学习训练动态中获得搜索能力。研究表明,一个双头Transformer可以实现深度优先搜索,并且在深度分阶段课程下,这种机制会自然地从稀疏奖励信号中涌现。

全循环Transformer:简单稳定循环

arXiv cs.LG

本文识别出梯度振荡和残差爆炸是循环Transformer训练不稳定的原因,并提出了全循环Transformer,包含两个无需参数调整的修改(全循环架构和注意力注入),能够稳定训练至12次循环迭代,在下游任务性能上实现了高达13.2%的提升。

面向Transformer模型压缩的鲁棒B样条解耦方法

arXiv cs.LG

本文介绍了一种基于B样条的Transformer模型压缩解耦框架,并提出了一种鲁棒交替最小二乘算法(R-CMTF-BSD),该算法在Vision Transformer和Swin Transformer架构上实现了显著的参数减少,同时保持了具有竞争力的准确率。