mixture-of-experts

#mixture-of-experts

DeepSeek V4 完整论文发布：FP4 QAT 技术细节与训练稳定性技巧 [D]

Reddit r/MachineLearning ↗ · 8小时前

DeepSeek 发布了完整的 V4 论文，详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧（预判路由与 SwiGLU 截断），以及用于 RLHF 的生成式奖励模型，实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。

0 人收藏 0 人点赞

#mixture-of-experts

AI2推出的新MoE模型：EMO

Reddit r/LocalLLaMA ↗ · 19小时前

AI2发布了EMO，一个混合专家（MoE）语言模型，总参数量14B，其中1B活跃参数，基于1万亿tokens训练，并采用文档级路由，即专家会按领域（如健康、新闻等）进行聚类。

0 人收藏 1 人点赞

#mixture-of-experts

EMO：通过预训练混合专家实现涌现模块化

Hugging Face Blog ↗ · 昨天缓存

Allen AI 发布了 EMO 模型，这是一种混合专家模型，其中模块化结构从数据中自然涌现，使得仅使用 12.5% 的专家就能完成一项任务，同时保持接近完整模型的性能。

0 人收藏 0 人点赞

#mixture-of-experts

ZAYA1-8B 技术报告

arXiv cs.AI ↗ · 昨天缓存

本报告介绍了 ZAYA1-8B，这是一款在 AMD 硬件上训练的混合专家推理模型，使用少于 10 亿的激活参数在数学和编程基准测试中取得了具有竞争力的性能。报告还详细介绍了马尔可夫式 RSA（Markovian RSA），这是一种用于聚合并行推理轨迹的新型测试时计算（test-time compute）方法。

0 人收藏 1 人点赞

#mixture-of-experts

通过有限专家库实现通信高效的专家路由

arXiv cs.LG ↗ · 昨天缓存

本文提出了一种针对稀疏混合专家（MoE）模型中通信高效专家路由的信息论框架，将门控机制视为随机信道，并推导实用的互信息估计器以分析有限专家库上的准确率-速率权衡。

0 人收藏 0 人点赞

#mixture-of-experts

MACS: 面向高效多模态MoE推理的模态感知容量缩放

arXiv cs.LG ↗ · 昨天缓存

MACS是一个无需训练的推理框架，通过引入熵加权负载和动态模态自适应容量机制，减轻多模态MoE MLLMs在专家并行中的落后效应。

0 人收藏 0 人点赞

#mixture-of-experts

EMO：用于涌现模块化的专家混合模型预训练

Hugging Face Daily Papers ↗ · 2天前缓存

EMO 是一种专家混合模型（Mixture-of-Experts），通过将相似领域的词元与共享专家分组实现模块化部署，在保持与标准 MoE 相当的性能的同时，支持显著的专家剪枝（保留 25% 的专家即可保留 99% 的性能）且不会导致性能下降。

0 人收藏 0 人点赞

#mixture-of-experts

UniPool：一种用于混合专家模型的全球共享专家池

Hugging Face Daily Papers ↗ · 2天前缓存

UniPool 为混合专家（MoE）模型引入了一种共享专家池架构，在降低参数随深度增长的同时，相较于标准 MoE 基线提高了效率和性能。

0 人收藏 0 人点赞

#mixture-of-experts

Jackrong/Qwopus3.6-35B-A3B-v1-GGUF

Hugging Face Models Trending ↗ · 3天前缓存

Jackrong 发布 Qwopus3.6-35B-A3B-v1，基于阿里巴巴 Qwen3.6 MoE 模型的推理增强微调版本，针对逻辑推理和智能体编程优化，拥有 350 亿总参数和 30 亿激活参数。

0 人收藏 0 人点赞

#mixture-of-experts

Zyphra/ZAYA1-8B

Hugging Face Models Trending ↗ · 4天前缓存

Zyphra 发布了 ZAYA1-8B，这是一款拥有 84 亿参数的混合专家模型（Mixture-of-Experts），其中活跃参数为 7.6 亿。该模型在数学和代码推理任务中展现出极高的效率与卓越的性能。

0 人收藏 0 人点赞

#mixture-of-experts

超越 SFT 到 RL：多模态强化学习中的黑盒策略蒸馏预对齐

Papers with Code Trending ↗ · 2026-05-01 缓存

本文介绍了 PRISM，一种在监督微调（SFT）和强化学习（RL）之间插入分布对齐阶段的方法，旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家（MoE）判别器的黑盒对抗博弈，提升了如 Qwen3-VL 等模型的 RLVR 性能。

0 人收藏 0 人点赞

#mixture-of-experts

NVIDIA 发布 Nemotron 3 Nano Omni 模型，统一视觉、音频和语言处理，助力 AI Agent 效率提升高达 9 倍

NVIDIA Blog ↗ · 2026-04-28 缓存

NVIDIA 宣布推出 Nemotron 3 Nano Omni，这是一款开放的多模态模型，通过统一视觉、音频和语言处理，使 AI Agent 能够更快、更高效地运行。与其他开放式的 Omni 模型相比，其吞吐量最高可提高 9 倍。

0 人收藏 0 人点赞

#mixture-of-experts

XiaomiMiMo/MiMo-V2.5-Pro

Hugging Face Models Trending ↗ · 2026-04-27 缓存

小米发布了 MiMo-V2.5-Pro，这是一个开源的 MoE 语言模型，拥有 1.02T 总参数和 1M token 上下文长度，专为复杂的智能体（Agent）和软件工程任务进行了优化。

0 人收藏 0 人点赞

#mixture-of-experts

poolside/Laguna-XS.2

Hugging Face Models Trending ↗ · 2026-04-23 缓存

Poolside 发布 Laguna XS.2，这是一个拥有 33B 总参数、3B 激活参数的 MoE 模型，专为智能体编码设计，可在配备 36GB RAM 的 Mac 上本地部署。

0 人收藏 0 人点赞

#mixture-of-experts

deepseek-ai/DeepSeek-V4-Pro

Hugging Face Models Trending ↗ · 2026-04-22 缓存

DeepSeek 发布了 V4-Pro 和 V4-Flash，这些混合专家模型采用混合注意力机制和 Muon 优化器，支持百万 token 级上下文。

0 人收藏 0 人点赞

#mixture-of-experts

SAMoRA：面向任务自适应学习的语义感知 LoRA 专家混合

arXiv cs.CL ↗ · 2026-04-22 缓存

SAMoRA 通过引入语义感知路由器和任务自适应缩放，在 MoE-LoRA 微调中提升专家专业化与动态加权，在多任务基准上显著优于现有方法。

0 人收藏 0 人点赞

#mixture-of-experts

@AntLingAGI：发布 Ling-2.6-flash，104B 总参、7.4B 激活的稀疏指令模型

X AI KOLs Following ↗ · 2026-04-21 缓存

Ling-2.6-flash 是 104B 总参/7.4B 激活的稀疏指令模型，专为 token 效率优化，可在智能体任务中降低成本、提升吞吐。

0 人收藏 0 人点赞

#mixture-of-experts

@ProTekkFZS：在 3090 上用 Q4_K_M 3.6 35B、768k 上下文加 YaRN，爽到飞起

X AI KOLs Following ↗ · 2026-04-20 缓存

用户报告称，通过 llama.cpp 分支，在 RTX 3090 上成功以 Q4_K_M 量化运行 35B 参数 MoE 模型，上下文长达 768K，仅把 8 个专家卸载到 CPU，性能依旧可接受。

0 人收藏 0 人点赞

#mixture-of-experts

4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境

Reddit r/LocalLLaMA ↗ · 2026-04-20

潜水多年的老用户，首次发帖。在 4 张 RTX 3090 上对三款 Qwen 模型分别进行了 20 多个会话的实时智能体工作测试——**Qwen3.5-27B** 稠密模型、**Qwen3.5-122B-A10B** MoE 和 **Qwen3.6-35B-A3B** MoE。以下数据均解析自持续真实负载下的 vLLM 日志，而非合成基准测试。**本文所有数据的关键负载背景：** 测试框架是一个多智能体编排器，同时运行 1-6 个并发的 OpenCode 会话，Prompt 长度为 30-60k token，并且强制执行**严格的 Bash 允许列表

0 人收藏 0 人点赞

#mixture-of-experts

FineSteer: 大规模语言模型推理时细粒度控制的统一框架

arXiv cs.CL ↗ · 2026-04-20 缓存

FineSteer 是一个新颖的推理时控制框架,将控制分解为条件控制和细粒度向量合成两个阶段,采用子空间引导条件控制(SCS)和混合控制专家(MoSE)机制来提高安全性和真实性,同时保持模型效用。实验表明在 TruthfulQA 上相比最新方法有 7.6% 的性能提升,且效用损失最小。

0 人收藏 0 人点赞

mixture-of-experts

提交意见反馈