从暴力图遍历到认知注意力:一次架构重设计

Reddit r/artificial 新闻

摘要

作者将IONS协议从暴力图遍历重新设计为认知注意力架构,该架构逐步将查询路由到网络的相关切片中,分离了路径置信度、相关性和实用性。

上周我分享了IONS的早期架构,这是一个基于以下理念构建的协议:智能应通过遍历可重用的认知构建块(CBB)来涌现,而非被压缩到越来越大的模型权重中。反馈非常棒。最大的批评不在于前提,而是可扩展性。事实证明这一批评是正确的。如今Genesis网络包含大约9,000个认知构建块、超过50,000个关系以及两个联邦节点。即便在这种规模下,暴力图遍历显然不是正确的架构。原始设计实际上要求每个查询同时搜索图并确定相关性。这无法扩展。 过去一周,我围绕我所谓的认知注意力架构重新设计了协议。每个查询不再遍历整个图,而是逐步路由到网络越来越相关的切片中:查询 → 相关节点 → 认知域 → 认知子域 → 候选CBB。遍历引擎只探索最可能产生有用回答的图部分。 重新设计还分离了之前混为一谈的三个概念: -路径置信度:推理的可信度如何? -路径相关性:是否回答了用户的问题? -路径效用:这种推理是否持续产生了有用的结果? 它们是独立的信号,应该独立优化。一个结果是路由层变得类似于注意力机制。大型语言模型在标记之间分配注意力。IONS在分布式的知识网络中分配认知注意力。知识层保持稳定。路由层进行学习。这比让用户反馈重写底层知识要清晰得多。 我对那些构建图数据库、检索系统、分布式搜索或大规模AI基础设施的人的反馈很感兴趣。由于这里的反馈,协议已经显著演进。我更希望在网络再增长一个数量级之前发现架构缺陷,而不是之后。 Genesis节点:8,369个CBB · 50,113个关系 · ions-v0.4 ionsprotocol.org · github.com/nomad505050/ions-genesis
查看原文

相似文章

注意力的路由与过滤结构

arXiv cs.LG

本文将注意力交互矩阵分解为路由(反对称)和过滤(对称)两个组成部分,并引入 S-D 注意力以解耦它们。揭示了路由中的谱级联现象,可预测注意力简化的位置,从而在极小困惑度损失下实现显著的参数减少。

学习跳跃块:自我发现的超度量路由用于硬件加速稀疏注意力

Reddit r/artificial

本文介绍了动态超度量注意力(Dynamic Ultrametric Attention),这是一个框架,其中Transformer在训练期间学习每头块稀疏路由拓扑,然后在推理时将这些拓扑卸载到自定义的Triton块稀疏内核上,与密集注意力相比,实现了高达28倍的加速和98.4%的内存减少。

重新思考高效注意力在混合架构中的作用

arXiv cs.CL

本文系统分析了高效注意力模块在混合语言模型架构中的作用,发现不同设计在充分训练下长上下文性能趋于一致,且长距离检索主要由全注意力承担,而高效注意力塑造了优化轨迹,揭示了一个称为“大窗口懒惰”的现象。

功能注意力:从成对亲和性到功能对应关系

Hugging Face Daily Papers

功能注意力是一种新颖的注意力机制,它将注意力重新解释为自适应基之间的功能对应关系,用受几何功能映射启发的结构化线性算子取代了softmax亲和性。该方法在包括PDE求解和3D分割在内的算子学习任务上实现了最先进的性能,同时保持了分辨率不变性。