@AntLingAGI:发布 Ling-2.6-flash,104B 总参、7.4B 激活的稀疏指令模型
摘要
Ling-2.6-flash 是 104B 总参/7.4B 激活的稀疏指令模型,专为 token 效率优化,可在智能体任务中降低成本、提升吞吐。
推出 Ling-2.6-flash,一款拥有 104B 总参数、7.4B 激活参数的稀疏指令模型。它主打高 token 效率,拒绝冗余输出,在真实智能体任务中保持竞争力,同时帮助开发者降低成本、提升吞吐。
查看缓存全文
缓存时间: 2026/04/22 02:09
推出 Ling-2.6-flash:拥有 104B 总参数量、7.4B 激活参数量的指令模型。Ling-2.6-flash 专为高 token 效率设计,不生成冗余输出;在真实智能体任务中保持竞争力,同时帮助开发者降低成本、提升吞吐量。
相似文章
我猜 Ling-2.6-Flash 就是前几天闹得沸沸扬扬的隐身模型 Elephant Alpha
Ling-2.6-Flash 似乎正是此前传闻中引发关注的隐身模型“Elephant Alpha”
z-lab/dflash
DFlash 引入了一种用于 Flash 投机解码的块扩散方法,以提高大语言模型的推理速度。
我们是否在浪费时间基于开源模型构建企业代理?(我对Ling 1T 2.6的经验)
一位企业代理开发者讨论了使用像Ling 1T 2.6这样的开源模型的权衡,强调了相比于专有API,优化和基准测试的高昂开销。
Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF
本文档介绍 Qwen3.5-9B-DeepSeek-V4-Flash,这是一款通过知识蒸馏技术将 DeepSeek-V4 的推理能力迁移至 9B 参数小模型中的 AI 模型,旨在实现高效推理。
@iotcoi:Qwen3.6-27B-FP8 + Dflash + DDTree,256k 上下文,10 个智能体,单颗 49W GB10 上峰值 200 tokens/s,平均解码 136 tokens/s
量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化,256k 上下文、10 智能体并发,峰值达 200 tok/s,平均 136 tok/s。