mamba

标签

Cards List
#mamba

预测瓶颈无法发现因果结构(但它们实际上能做什么)

Hugging Face Daily Papers · 2026-05-09 缓存

本文质疑了诸如 Mamba 等模型中的预测瓶颈能够恢复因果结构的说法,并通过一个新的基准测试证明,其性能提升主要归因于混杂因素和鲁棒性伪影,而非真正的因果发现。

0 人收藏 0 人点赞
#mamba

@no_stp_on_snek: 首批体验:triattention v3 在长上下文中安全驱逐,✓命中每个层级 32k → 256k 在 qwen3.5-2b-4bit (混合 mamba…

X AI KOLs Following · 2026-05-08

介绍了 triattention v3,一种新的注意力机制,能够在长上下文推理中实现安全驱逐且不丢失召回,并在混合 mamba+attention 模型上演示了高达 256k 令牌的效果。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈