@AdinaYakup: Keye VL 2.0-30B-A3B 来自 @KwaiKeye 的新多模态模型 30B/3B 激活 - Apache 2.0 通过 DeepSeek Sparse Att… 提供 256K 上下文
摘要
KwaiKeye 发布 Keye VL 2.0-30B-A3B,这是一个多模态模型,拥有 30B 总参数/3B 激活参数,通过 DeepSeek Sparse Attention 提供 256K 上下文,采用 Apache 2.0 许可证,声称其准确性可与 Qwen3 VL 和 Gemini 3 媲美。
查看缓存全文
缓存时间: 2026/06/01 13:23
Keye VL 2.0-30B-A3B 🔥 来自@KwaiKeye 的新多模态模型
✨ 30B/3B 激活 - Apache 2.0
✨ 通过 DeepSeek 稀疏注意力实现 256K 上下文(可能是第一个在生产中部署此功能的模型?👀)
✨ 输入更多帧时会更准确
✨ 媲美 Qwen3 VL 和 Gemini 3 https://t.co/B2MO3zMIad
相似文章
Kwai-Keye/Keye-VL-2.0-30B-A3B
Kwai-Keye 发布了 Keye-VL-2.0-30B-A3B,这是一款 30B 级别的视觉语言模型,具备先进的视频理解、稀疏注意力机制和智能体能力,在多项基准测试中达到顶尖水平。
Keye-VL-2.0-30B-A3B —— 首次将DSA注意力引入多模态
快手发布Keye-VL-2.0-30B-A3B,这是一款30B级多模态基础模型,首次将DSA注意力引入多模态领域,专注于长视频理解与智能体能力。
Kwai Keye-VL-2.0 技术报告
本技术报告介绍了 Kwai Keye-VL-2.0,这是一个开源的混合专家多模态基础模型,专为长视频理解和智能体智能设计,利用 DeepSeek 稀疏注意力机制和跨模态蒸馏技术,在同等规模模型中实现了最先进的性能。
@AdinaYakup: Step-3.7-Flash 来自@StepFun_ai的新VL模型 198B/11B活跃参数 - MoE 256K上下文 3推理等级 高达400 tokens/秒
StepFun 发布了 Step-3.7-Flash,这是一个新的视觉语言 MoE 大模型,拥有 198B 参数(11B 激活),256K 上下文,推理速度高达 400 tokens/秒。
@AdinaYakup: Kimi 2.6 已上线 @huggingface https://huggingface.co/moonshotai/Kimi-K2.6… 1T MoE / 32B 激活 / 256K 上下文…
Moonshot AI 发布 Kimi 2.6:1 万亿参数 MoE 模型,激活 320 亿,上下文 256K,300 子智能体集群,可推理 4,000 步。