@dphnAI: Dolphin X1 Trinity Nano 现已上线 @huggingface 这是我们目前最小的去审查模型——6B MoE,1B活跃参数…
摘要
Dolphin X1 Trinity Nano,一个拥有1B活跃参数的6B混合专家模型,已在 Hugging Face 上发布。它是目前最小的去审查模型,仅使用在线强化学习训练。
查看缓存全文
缓存时间: 2026/05/29 21:55
Dolphin X1 Trinity Nano 现已上线 @huggingface
这是我们迄今为止最小的去审查模型——6B 混合专家模型(MoE),仅 1B 活跃参数,完全使用在线强化学习训练
衷心感谢 @TargonCompute 提供 8xB200 节点,@PrimeIntellect 提供托管 RL 支持,以及 @arcee_ai 提供 Trinity 系列 https://t.co/2hwnhrc7t2
相似文章
@Montreal_AI:一个0.6B参数的模型学会了管理大模型。这就是TRINITY背后的理念——一篇由Jinglue Xu、Qi Sun、Pe…
TRINITY是一个轻量级的0.6B参数协调器,它通过学习使用进化策略为多个LLM分配角色(思考者、执行者、验证者)来编排它们。在编码、数学、推理和领域知识任务上,它优于单个模型和现有的协调方法。
Dolphin-CN-Dialect:中文方言识别的重要性
Dolphin-CN-Dialect 是一款支持流式处理的 ASR 模型,通过基于温度的采样策略和重新设计的词元化方案提升了方言识别能力,在更小的模型规模下实现了具有竞争力的性能。
@abidlabs:对于一个8B模型来说,非常出色!在这里查看 @Gradio 应用:https://huggingface.co/spaces/LiquidAI/LFM2.5-8B-A1B…
Liquid AI 发布了 LFM2.5-8B-A1B,这是一个8B MoE模型,拥有1.5B活跃参数和128K上下文,为边缘设备优化。
推出 Nano Banana Pro
Google DeepMind 推出 Nano Banana Pro,这是一款基于 Gemini 3 Pro 打造的全新顶尖图像生成与编辑模型。该模型具备更出色的文本渲染能力、增强的世界知识整合能力以及高保真视觉能力,可在 Google 各产品中体验。
Nemotron 3 Ultra。5500亿参数,550亿活跃参数,100万token上下文窗口
NVIDIA发布Nemotron 3 Ultra,一个庞大的5500亿参数混合专家模型,具有550亿活跃参数和100万token的上下文窗口。