ascend-tribe/openPangu-2.0-Flash(他们尚未上传至HuggingFace)
摘要
openPangu-2.0-Flash 是一个 92B MoE 模型,激活参数为 6B,上下文长度为 512k,在昇腾上使用 34T tokens 训练,融合了慢速/快速思维以及多个RL训练阶段。
https://ai.gitcode.com/ascend-tribe/openPangu-2.0-Flash openPangu-2.0-Flash 是一个在昇腾上训练的 MoE 模型。该模型总参数为 92B,激活参数为 6B,上下文长度为 512k。预训练数据总量包含 34T tokens。在后训练阶段,openPangu-2.0-Flash 通过统一的 SFT 训练,具备慢速和快速思维能力、多个专家RL训练、以及结合多个RL专家的在策略蒸馏。
相似文章
华为开源OpenPangu-2.0-Flash - 总参数量92B,活跃参数量6B
华为开源OpenPangu-2.0-Flash,这是一个总参数量92B、活跃参数量6B的MoE模型,支持512K上下文,并附带推理代码和训练操作。
@AdinaYakup: Step-3.7-Flash 来自@StepFun_ai的新VL模型 198B/11B活跃参数 - MoE 256K上下文 3推理等级 高达400 tokens/秒
StepFun 发布了 Step-3.7-Flash,这是一个新的视觉语言 MoE 大模型,拥有 198B 参数(11B 激活),256K 上下文,推理速度高达 400 tokens/秒。
stepfun-ai/Step-3.7-Flash-GGUF
StepFun 发布了其 198B 参数的稀疏 MoE 视觉语言模型 Step-3.7-Flash 的 GGUF 量化版本,支持本地部署,最高 256K 上下文长度和可选择的推理级别。
@AntLingAGI:发布 Ling-2.6-flash,104B 总参、7.4B 激活的稀疏指令模型
Ling-2.6-flash 是 104B 总参/7.4B 激活的稀疏指令模型,专为 token 效率优化,可在智能体任务中降低成本、提升吞吐。
华为发布 openPangu 2.0(将于6月30日开源)
华为宣布推出 openPangu 2.0,这是一个开源大模型,总参数量 505B,稀疏比 28:1,针对昇腾计算和鸿蒙进行了优化,核心组件将于 6 月 30 日起逐步开源。