sequence-models

#sequence-models

Black-Mamba: 生物启发的泄漏累积方法用于分布漂移下的概念知识

arXiv cs.AI ↗ · 2026-07-22 缓存

Black-Mamba提出了一种测试时自适应预测架构，利用累积惊异度仅在检测到分布漂移证据时选择性更新记忆，从而在非平稳时间序列上实现高效自适应。

0 人收藏 0 人点赞

#sequence-models

Reddit r/ArtificialInteligence ↗ · 2026-06-25

探讨了Transformer推理中KV缓存日益增长的内存瓶颈，解释了为何像Mamba和RWKV这样的固定大小内存的替代架构重新获得关注。

0 人收藏 0 人点赞

#sequence-models

Reddit r/MachineLearning ↗ · 2026-06-21

关于矩阵循环单元（MRU）的更新，这是一种线性时间复杂度的注意力机制替代方案。作者探索了稳定训练的方法，发现正交矩阵表现不佳，而LDU分解效果最佳，并表明MRU在TinyStories等较大数据集上表现不如Transformer。

0 人收藏 0 人点赞

#sequence-models

arXiv cs.AI ↗ · 2026-06-16 缓存

本文介绍了RecurrReason，这是一个难度可控的基准测试，包含四个符号逻辑谜题，用于评估序列模型中的多步推理能力。在T5和GPT-2上的微调实验表明，架构比规模更能决定成功，且预训练迁移依赖于局部转移结构。

0 人收藏 0 人点赞

#sequence-models

arXiv cs.CL ↗ · 2026-06-08 缓存

本文介绍了一种残差化与置换诊断方法，用于从基因组基础模型的调控重要性分数中分离由可预测性驱动和由调控驱动的方差，并应用于胶质瘤相关位点的暗基因组元件。

0 人收藏 0 人点赞

#sequence-models

arXiv cs.AI ↗ · 2026-06-02 缓存

SHARP 提出了一种受生物学启发的框架，将记忆积累与模式识别分离，在离线睡眠阶段使用加速重放来学习流式环境中的长程非平稳时序模式。它在 text8 和 PG-19 上提升了上下文保持能力，同时保持了计算效率。

0 人收藏 0 人点赞

#sequence-models

arXiv cs.CL ↗ · 2026-05-27 缓存

本文形式化了下个token预测中的充分性差距，证明即使理想的序列模型在文本前缀不足以统计潜在情况时，也可能变得过于自信。它提出了一种外部观察者机制来减少但无法消除这一差距。

0 人收藏 0 人点赞

#sequence-models

arXiv cs.AI ↗ · 2026-05-15 缓存

本文介绍了条件属性变换器（Conditional Attribute Transformers），一种联合估计条件概率和属性值的方法，能够在单次前向传播中实现信用分配、反事实分析和可引导生成。

0 人收藏 0 人点赞

#sequence-models

arXiv cs.LG ↗ · 2026-05-11 缓存

本文介绍了 Toeplitz MLP Mixer（TMM），这是一种新型架构，它用 Toeplitz 矩阵乘法取代注意力机制，从而在保持高信息保留率和训练效率的同时实现更低的计算复杂度。

0 人收藏 0 人点赞