mamba

#mamba

SPDM：基于流形约束的几何调制状态空间建模用于时间序列预测

arXiv cs.LG ↗ · 5天前缓存

SPDM 提出了一种几何感知的状态空间模型，该模型利用对称正定流形上的流形约束进行时间序列预测，在11个基准测试中取得了最先进的性能。

0 人收藏 0 人点赞

#mamba

Mamba辅助的非马尔可夫闭合用于降阶建模

arXiv cs.LG ↗ · 2026-06-05 缓存

提出了Mamba辅助闭合（MAC）框架，这是一种基于Mamba的序列模型，用于高维动力系统降阶建模中的非马尔可夫闭合，在Burgers方程和Lorenz '96系统上优于基于GRU和马尔可夫的方法。

0 人收藏 0 人点赞

#mamba

@rasbt：又一个开源权重发布。Nemotron 3 Ultra 拥有令人印象深刻的性能效率比！在设计上，它……

X AI KOLs Timeline ↗ · 2026-06-04 缓存

Nemotron 3 Ultra 是一个开源权重发布，具有令人印象深刻的性能效率比，采用 Mamba-2 与注意力机制的混合栈和 LatentMoE，并且比之前的 Super 变体更大。

0 人收藏 0 人点赞

#mamba

通过轻量级结构引导的自回归模型实现新型图生成的可扩展性

arXiv cs.LG ↗ · 2026-06-04

研究人员提出了一种用于图生成的轻量级自回归框架，该框架使用结构引导的拓扑排序实现了接近对数线性的复杂度，解决了现有扩散和自回归方法在可扩展性和新颖性方面的局限性。该方法同时支持LSTM和Mamba风格的主干网络，在分子和非分子基准测试中展示了改进的新颖性，同时保持了有效性和独特性。

0 人收藏 0 人点赞

#mamba

基于查询的跨模态投影器增强 Mamba 多模态大语言模型

arXiv cs.CL ↗ · 2026-06-04 缓存

本文提出了一种基于查询的跨模态投影器，通过交叉注意力机制对视觉标记进行压缩，以提升基于 Mamba 的多模态大语言模型的性能。该方法在视觉语言基准测试中同时提高了模型性能和吞吐量，并消除了手动设计二维扫描顺序的需求。

0 人收藏 0 人点赞

#mamba

基于拓扑感知排序的图Mamba生存分析

arXiv cs.LG ↗ · 2026-06-03 缓存

本文提出TopoMamSurv，一种用于全切片图像生存分析的图Mamba框架，采用拓扑感知排序解决Mamba对输入顺序的敏感性问题，并融合双向Mamba和图卷积网络（GCN）实现空间上下文建模。

0 人收藏 0 人点赞

#mamba

无需多视角生成的跨视角一致三维高斯头部头像

Hugging Face Daily Papers ↗ · 2026-05-24 缓存

MVCHead 是一种新颖的方法，仅从单张二维图像生成三维高斯头部头像，无需多视角数据，利用分层状态空间模型和跨视角一致性约束。

0 人收藏 0 人点赞

#mamba

我构建了一个Mamba1变体，称为SM1，d_state=1，在Blackwell上纯PyTorch运行[P]

Reddit r/MachineLearning ↗ · 2026-05-23

作者提出了SM1，一个Mamba1的变体，d_state=1，使用两个原生PyTorch操作替代选择性扫描，与d_state=16相比内存减少16倍。闭式解消除了状态维度，实现了每个token恒定内存的高效推理。

0 人收藏 0 人点赞

#mamba

ReTAMamba：用于不规则临床时间序列预测的可靠性感知时间聚合与Mamba方法

arXiv cs.LG ↗ · 2026-05-19 缓存

提出ReTAMamba，一种使用基于Mamba的可靠性感知时间聚合进行不规则临床时间序列预测的方法，在MIMIC-IV、eICU和PhysioNet 2012上取得了显著的AUPRC提升。

0 人收藏 0 人点赞

#mamba

代理式神经架构发现：AIRA-Compose与AIRA-Design

Hugging Face Daily Papers ↗ · 2026-05-15 缓存

本文介绍了AIRA-Compose和AIRA-Design，这两个双重框架利用AI智能体自主发现超越标准Transformer且高效扩展的神经架构。

0 人收藏 0 人点赞

#mamba

预测瓶颈无法发现因果结构（但它们实际上能做什么）

Hugging Face Daily Papers ↗ · 2026-05-09 缓存

本文质疑了诸如 Mamba 等模型中的预测瓶颈能够恢复因果结构的说法，并通过一个新的基准测试证明，其性能提升主要归因于混杂因素和鲁棒性伪影，而非真正的因果发现。

0 人收藏 0 人点赞

#mamba

@no_stp_on_snek: 首批体验：triattention v3 在长上下文中安全驱逐，✓命中每个层级 32k → 256k 在 qwen3.5-2b-4bit (混合 mamba…

X AI KOLs Following ↗ · 2026-05-08

介绍了 triattention v3，一种新的注意力机制，能够在长上下文推理中实现安全驱逐且不丢失召回，并在混合 mamba+attention 模型上演示了高达 256k 令牌的效果。

0 人收藏 0 人点赞

mamba

提交意见反馈