标签
本文提出了一种基于查询的跨模态投影器,通过交叉注意力机制对视觉标记进行压缩,以提升基于 Mamba 的多模态大语言模型的性能。该方法在视觉语言基准测试中同时提高了模型性能和吞吐量,并消除了手动设计二维扫描顺序的需求。
LDARNet 是一个拥有1.2亿参数的层次化基因组基础模型,引入了可学习的自适应分词机制(灵感来源于 H-Net 的动态分块),用于DNA序列的掩码语言建模。该模型在5项组蛋白修饰任务上取得了最先进的结果,并在多项基因组基准测试中超越了参数量多达其20倍的模型。其学习到的分词边界与启动子motif和剪接位点等生物学特征高度吻合。
EnergyMamba提出了一种新颖的时空框架,将图增强选择性状态空间模型与自适应共形分位数回归相结合,实现准确可靠的能源消耗预测并给出不确定性估计,在佛罗里达、纽约和加利福尼亚的真实数据集上取得了性能提升。
本文提出了一种针对Transformer模型的类睡眠巩固机制,该机制利用快速权重和递归传递来改进长上下文处理,同时保持推理速度。
MVCHead 是一种新颖的方法,仅从单张二维图像生成三维高斯头部头像,无需多视角数据,利用分层状态空间模型和跨视角一致性约束。
本文提出物理信息驱动的多尺度Mamba(PIMSM),这是一种状态空间架构,它将模型记忆与物理时间尺度对齐,以提升在科学时间序列分布偏移下的鲁棒性,并在fMRI和天气预报任务上展示了改进。
研究人员介绍了Raven,这是一种新颖的序列模型,它将状态空间模型的效率与受滑动窗口注意力启发的选择性槽更新机制相结合,以改进长上下文检索。该方法为现有的线性时间模型提供了一种更严谨的替代方案。