Keye-VL-2.0-30B-A3B —— 首次将DSA注意力引入多模态
摘要
快手发布Keye-VL-2.0-30B-A3B,这是一款30B级多模态基础模型,首次将DSA注意力引入多模态领域,专注于长视频理解与智能体能力。
介绍Keye-VL-2.0-30B-A3B —— Keye系列最新30B级旗舰基础模型,专为推动长视频理解的前沿以及解锁Keye家族第一代智能体能力而设计。 [https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B](https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B) https://preview.redd.it/wsxe233abh3h1.png?width=1244&format=png&auto=webp&s=aa9ffa388e16e4f8f5cb72ed3dae063f99df69f1 https://preview.redd.it/2iymyb9dbh3h1.png?width=2048&format=png&auto=webp&s=a834ce92294c3be059b50c6993f1be6d3faf2767
相似文章
Kwai-Keye/Keye-VL-2.0-30B-A3B
Kwai-Keye 发布了 Keye-VL-2.0-30B-A3B,这是一款 30B 级别的视觉语言模型,具备先进的视频理解、稀疏注意力机制和智能体能力,在多项基准测试中达到顶尖水平。
@AdinaYakup: Keye VL 2.0-30B-A3B 来自 @KwaiKeye 的新多模态模型 30B/3B 激活 - Apache 2.0 通过 DeepSeek Sparse Att… 提供 256K 上下文
KwaiKeye 发布 Keye VL 2.0-30B-A3B,这是一个多模态模型,拥有 30B 总参数/3B 激活参数,通过 DeepSeek Sparse Attention 提供 256K 上下文,采用 Apache 2.0 许可证,声称其准确性可与 Qwen3 VL 和 Gemini 3 媲美。
Kwai Keye-VL-2.0 技术报告
本技术报告介绍了 Kwai Keye-VL-2.0,这是一个开源的混合专家多模态基础模型,专为长视频理解和智能体智能设计,利用 DeepSeek 稀疏注意力机制和跨模态蒸馏技术,在同等规模模型中实现了最先进的性能。
InternVideo3: 使用多模态上下文推理将基础模型智能体化
InternVideo3 引入了多模态上下文推理(MCR)和高效注意力机制,以增强长时域多模态任务,在视频理解基准上取得了强劲的结果,并展示了视频智能体能力。
Interdomain Attention: 超越令牌级键值记忆
提出了Interdomain Attention,一种通过核方法将状态空间模型集成到注意力中的新方法,实现了固定大小状态的高效长上下文建模,并在参数规模达13亿的语言建模实验中超越了SSM和softmax注意力。