通过卡尔曼滤波、克里金法和过程噪声的精确跟踪Transformer

arXiv cs.LG 2026/05/20 04:00 论文

transformer kalman-filtering kriging uncertainty bayesian sequential-recommendation llm-fine-tuning

摘要

本文介绍了贝叶斯滤波Transformer（BFT），它通过精度加权注意力和卡尔曼更新残差将不确定性引入Transformer，从而提升了序列推荐和有噪声大语言模型微调的性能。

arXiv:2605.18832v1 公告类型：新论文摘要：Transformer是现代人工智能的基础构建模块，但并未提供处理现实应用中普遍存在的\emph{不确定性}的原则性方法：序列推荐中历史稀疏的冷启动token、语言模型中异质的信号质量，以及由无约束softmax引起的注意力沉没。每个token都被视为具有相同的置信度。我们证明这种均匀性是我们\emph{贝叶斯滤波Transformer}（BFT）的一个退化情况：注意力变为精度加权克里金法，残差连接变为具有自适应增益的卡尔曼更新，而前馈网络变为一个动力学模型，通过雅可比矩阵加过程噪声规则传播精度。观测精度来自一个无参数的限制最大似然（REML）估计器，该估计器带有共轭贝叶斯先验。BFT可以以极小的开销替换任何Transformer层。在序列推荐中，BFT应用于三种主要架构在六个基准测试上取得了显著提升，其中冷启动用户和稀有物品（不确定性最高）的提升最大。在带有噪声数据的大语言模型监督微调中，BFT在两种情境下提升了鲁棒性：噪声监督（问答中的token标签损坏）和噪声上下文（带有真实RAG干扰项的检索增强问答）。一个单一的原则性修改——恢复精度——在经典序列建模和现代LLM场景中都打开了巨大的提升空间。

查看原文

通过卡尔曼滤波、克里金法和过程噪声的精确跟踪Transformer

相似文章

RT-Transformer：将 Transformer Block 视为球面状态估计器

BA-T: 一种用于两视图束调整的迭代Transformer

基于强化学习的智能体Transformer可证明地学会搜索

全循环Transformer：简单稳定循环

面向Transformer模型压缩的鲁棒B样条解耦方法

提交意见反馈