标签
SPDM 提出了一种几何感知的状态空间模型,该模型利用对称正定流形上的流形约束进行时间序列预测,在11个基准测试中取得了最先进的性能。
提出了Mamba辅助闭合(MAC)框架,这是一种基于Mamba的序列模型,用于高维动力系统降阶建模中的非马尔可夫闭合,在Burgers方程和Lorenz '96系统上优于基于GRU和马尔可夫的方法。
Nemotron 3 Ultra 是一个开源权重发布,具有令人印象深刻的性能效率比,采用 Mamba-2 与注意力机制的混合栈和 LatentMoE,并且比之前的 Super 变体更大。
研究人员提出了一种用于图生成的轻量级自回归框架,该框架使用结构引导的拓扑排序实现了接近对数线性的复杂度,解决了现有扩散和自回归方法在可扩展性和新颖性方面的局限性。该方法同时支持LSTM和Mamba风格的主干网络,在分子和非分子基准测试中展示了改进的新颖性,同时保持了有效性和独特性。
本文提出了一种基于查询的跨模态投影器,通过交叉注意力机制对视觉标记进行压缩,以提升基于 Mamba 的多模态大语言模型的性能。该方法在视觉语言基准测试中同时提高了模型性能和吞吐量,并消除了手动设计二维扫描顺序的需求。
本文提出TopoMamSurv,一种用于全切片图像生存分析的图Mamba框架,采用拓扑感知排序解决Mamba对输入顺序的敏感性问题,并融合双向Mamba和图卷积网络(GCN)实现空间上下文建模。
MVCHead 是一种新颖的方法,仅从单张二维图像生成三维高斯头部头像,无需多视角数据,利用分层状态空间模型和跨视角一致性约束。
作者提出了SM1,一个Mamba1的变体,d_state=1,使用两个原生PyTorch操作替代选择性扫描,与d_state=16相比内存减少16倍。闭式解消除了状态维度,实现了每个token恒定内存的高效推理。
提出ReTAMamba,一种使用基于Mamba的可靠性感知时间聚合进行不规则临床时间序列预测的方法,在MIMIC-IV、eICU和PhysioNet 2012上取得了显著的AUPRC提升。
本文介绍了AIRA-Compose和AIRA-Design,这两个双重框架利用AI智能体自主发现超越标准Transformer且高效扩展的神经架构。
本文质疑了诸如 Mamba 等模型中的预测瓶颈能够恢复因果结构的说法,并通过一个新的基准测试证明,其性能提升主要归因于混杂因素和鲁棒性伪影,而非真正的因果发现。
介绍了 triattention v3,一种新的注意力机制,能够在长上下文推理中实现安全驱逐且不丢失召回,并在混合 mamba+attention 模型上演示了高达 256k 令牌的效果。