功能注意力:从成对亲和性到功能对应关系

Hugging Face Daily Papers 论文

摘要

功能注意力是一种新颖的注意力机制,它将注意力重新解释为自适应基之间的功能对应关系,用受几何功能映射启发的结构化线性算子取代了softmax亲和性。该方法在包括PDE求解和3D分割在内的算子学习任务上实现了最先进的性能,同时保持了分辨率不变性。

学习无限维函数空间之间的映射(即算子学习)对于许多机器学习应用至关重要。尽管基于Transformer的算子很流行,但它们通常依赖于逐token的注意力。这些方法将连续场视为离散token,通常忽略了全局函数结构。我们引入了功能注意力,它将注意力重新解释为自适应基之间的功能对应关系。受几何功能映射的启发,我们的方法用结构化的线性算子取代了softmax亲和性。这产生了一种紧凑、可泛化、分辨率不变的表示,显式地捕捉全局依赖关系。实验表明,功能注意力在许多算子学习任务(包括求解PDE、3D分割和回归)中能够达到最先进的性能,同时对于不同的离散化保持鲁棒性。项目页面可在 https://github.com/xjffff/FUNCATTN 获取。
查看原文

相似文章

重新思考高效注意力在混合架构中的作用

arXiv cs.CL

本文系统分析了高效注意力模块在混合语言模型架构中的作用,发现不同设计在充分训练下长上下文性能趋于一致,且长距离检索主要由全注意力承担,而高效注意力塑造了优化轨迹,揭示了一个称为“大窗口懒惰”的现象。

注意力的路由与过滤结构

arXiv cs.LG

本文将注意力交互矩阵分解为路由(反对称)和过滤(对称)两个组成部分,并引入 S-D 注意力以解耦它们。揭示了路由中的谱级联现象,可预测注意力简化的位置,从而在极小困惑度损失下实现显著的参数减少。

Interdomain Attention: 超越令牌级键值记忆

arXiv cs.LG

提出了Interdomain Attention,一种通过核方法将状态空间模型集成到注意力中的新方法,实现了固定大小状态的高效长上下文建模,并在参数规模达13亿的语言建模实验中超越了SSM和softmax注意力。

AFUN:迈向功能性理解的可供性基础模型

Hugging Face Daily Papers

AFUN 提出了一种可供性基础模型,该模型从 RGB-D 观测和语言描述中预测功能掩码和 3D 运动曲线,从而能够在多种环境中实现泛化的机器人操作。该模型在多个基准测试上优于基线方法,并且无需微调即可部署到实际任务中。

结构注意力税:检索格式如何独立于内容劫持上下文学习

arXiv cs.CL

本文识别并形式化了'结构注意力税'现象,即检索内容的格式(例如知识图谱三元组)独立于语义相关性扭曲了LLM的注意力分布,导致演示注意力压缩。它提供了正式框架、跨模型和基准的实证证据,并提出了结构感知的缓解策略。