ascend-tribe/openPangu-2.0-Flash(他们尚未上传至HuggingFace)

Reddit r/LocalLLaMA 模型

摘要

openPangu-2.0-Flash 是一个 92B MoE 模型,激活参数为 6B,上下文长度为 512k,在昇腾上使用 34T tokens 训练,融合了慢速/快速思维以及多个RL训练阶段。

https://ai.gitcode.com/ascend-tribe/openPangu-2.0-Flash openPangu-2.0-Flash 是一个在昇腾上训练的 MoE 模型。该模型总参数为 92B,激活参数为 6B,上下文长度为 512k。预训练数据总量包含 34T tokens。在后训练阶段,openPangu-2.0-Flash 通过统一的 SFT 训练,具备慢速和快速思维能力、多个专家RL训练、以及结合多个RL专家的在策略蒸馏。
查看原文

相似文章

stepfun-ai/Step-3.7-Flash-GGUF

Hugging Face Models Trending

StepFun 发布了其 198B 参数的稀疏 MoE 视觉语言模型 Step-3.7-Flash 的 GGUF 量化版本,支持本地部署,最高 256K 上下文长度和可选择的推理级别。

华为发布 openPangu 2.0(将于6月30日开源)

Reddit r/LocalLLaMA

华为宣布推出 openPangu 2.0,这是一个开源大模型,总参数量 505B,稀疏比 28:1,针对昇腾计算和鸿蒙进行了优化,核心组件将于 6 月 30 日起逐步开源。