mixture-of-experts

标签

Cards List
#mixture-of-experts

DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]

Reddit r/MachineLearning · 8小时前

DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。

0 人收藏 0 人点赞
#mixture-of-experts

AI2推出的新MoE模型:EMO

Reddit r/LocalLLaMA · 19小时前

AI2发布了EMO,一个混合专家(MoE)语言模型,总参数量14B,其中1B活跃参数,基于1万亿tokens训练,并采用文档级路由,即专家会按领域(如健康、新闻等)进行聚类。

0 人收藏 1 人点赞
#mixture-of-experts

EMO:通过预训练混合专家实现涌现模块化

Hugging Face Blog · 昨天 缓存

Allen AI 发布了 EMO 模型,这是一种混合专家模型,其中模块化结构从数据中自然涌现,使得仅使用 12.5% 的专家就能完成一项任务,同时保持接近完整模型的性能。

0 人收藏 0 人点赞
#mixture-of-experts

ZAYA1-8B 技术报告

arXiv cs.AI · 昨天 缓存

本报告介绍了 ZAYA1-8B,这是一款在 AMD 硬件上训练的混合专家推理模型,使用少于 10 亿的激活参数在数学和编程基准测试中取得了具有竞争力的性能。报告还详细介绍了马尔可夫式 RSA(Markovian RSA),这是一种用于聚合并行推理轨迹的新型测试时计算(test-time compute)方法。

0 人收藏 1 人点赞
#mixture-of-experts

通过有限专家库实现通信高效的专家路由

arXiv cs.LG · 昨天 缓存

本文提出了一种针对稀疏混合专家(MoE)模型中通信高效专家路由的信息论框架,将门控机制视为随机信道,并推导实用的互信息估计器以分析有限专家库上的准确率-速率权衡。

0 人收藏 0 人点赞
#mixture-of-experts

MACS: 面向高效多模态MoE推理的模态感知容量缩放

arXiv cs.LG · 昨天 缓存

MACS是一个无需训练的推理框架,通过引入熵加权负载和动态模态自适应容量机制,减轻多模态MoE MLLMs在专家并行中的落后效应。

0 人收藏 0 人点赞
#mixture-of-experts

EMO:用于涌现模块化的专家混合模型预训练

Hugging Face Daily Papers · 2天前 缓存

EMO 是一种专家混合模型(Mixture-of-Experts),通过将相似领域的词元与共享专家分组实现模块化部署,在保持与标准 MoE 相当的性能的同时,支持显著的专家剪枝(保留 25% 的专家即可保留 99% 的性能)且不会导致性能下降。

0 人收藏 0 人点赞
#mixture-of-experts

UniPool:一种用于混合专家模型的全球共享专家池

Hugging Face Daily Papers · 2天前 缓存

UniPool 为混合专家(MoE)模型引入了一种共享专家池架构,在降低参数随深度增长的同时,相较于标准 MoE 基线提高了效率和性能。

0 人收藏 0 人点赞
#mixture-of-experts

Jackrong/Qwopus3.6-35B-A3B-v1-GGUF

Hugging Face Models Trending · 3天前 缓存

Jackrong 发布 Qwopus3.6-35B-A3B-v1,基于阿里巴巴 Qwen3.6 MoE 模型的推理增强微调版本,针对逻辑推理和智能体编程优化,拥有 350 亿总参数和 30 亿激活参数。

0 人收藏 0 人点赞
#mixture-of-experts

Zyphra/ZAYA1-8B

Hugging Face Models Trending · 4天前 缓存

Zyphra 发布了 ZAYA1-8B,这是一款拥有 84 亿参数的混合专家模型(Mixture-of-Experts),其中活跃参数为 7.6 亿。该模型在数学和代码推理任务中展现出极高的效率与卓越的性能。

0 人收藏 0 人点赞
#mixture-of-experts

超越 SFT 到 RL:多模态强化学习中的黑盒策略蒸馏预对齐

Papers with Code Trending · 2026-05-01 缓存

本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。

0 人收藏 0 人点赞
#mixture-of-experts

NVIDIA 发布 Nemotron 3 Nano Omni 模型,统一视觉、音频和语言处理,助力 AI Agent 效率提升高达 9 倍

NVIDIA Blog · 2026-04-28 缓存

NVIDIA 宣布推出 Nemotron 3 Nano Omni,这是一款开放的多模态模型,通过统一视觉、音频和语言处理,使 AI Agent 能够更快、更高效地运行。与其他开放式的 Omni 模型相比,其吞吐量最高可提高 9 倍。

0 人收藏 0 人点赞
#mixture-of-experts

XiaomiMiMo/MiMo-V2.5-Pro

Hugging Face Models Trending · 2026-04-27 缓存

小米发布了 MiMo-V2.5-Pro,这是一个开源的 MoE 语言模型,拥有 1.02T 总参数和 1M token 上下文长度,专为复杂的智能体(Agent)和软件工程任务进行了优化。

0 人收藏 0 人点赞
#mixture-of-experts

poolside/Laguna-XS.2

Hugging Face Models Trending · 2026-04-23 缓存

Poolside 发布 Laguna XS.2,这是一个拥有 33B 总参数、3B 激活参数的 MoE 模型,专为智能体编码设计,可在配备 36GB RAM 的 Mac 上本地部署。

0 人收藏 0 人点赞
#mixture-of-experts

deepseek-ai/DeepSeek-V4-Pro

Hugging Face Models Trending · 2026-04-22 缓存

DeepSeek 发布了 V4-Pro 和 V4-Flash,这些混合专家模型采用混合注意力机制和 Muon 优化器,支持百万 token 级上下文。

0 人收藏 0 人点赞
#mixture-of-experts

SAMoRA:面向任务自适应学习的语义感知 LoRA 专家混合

arXiv cs.CL · 2026-04-22 缓存

SAMoRA 通过引入语义感知路由器和任务自适应缩放,在 MoE-LoRA 微调中提升专家专业化与动态加权,在多任务基准上显著优于现有方法。

0 人收藏 0 人点赞
#mixture-of-experts

@AntLingAGI:发布 Ling-2.6-flash,104B 总参、7.4B 激活的稀疏指令模型

X AI KOLs Following · 2026-04-21 缓存

Ling-2.6-flash 是 104B 总参/7.4B 激活的稀疏指令模型,专为 token 效率优化,可在智能体任务中降低成本、提升吞吐。

0 人收藏 0 人点赞
#mixture-of-experts

@ProTekkFZS:在 3090 上用 Q4_K_M 3.6 35B、768k 上下文加 YaRN,爽到飞起

X AI KOLs Following · 2026-04-20 缓存

用户报告称,通过 llama.cpp 分支,在 RTX 3090 上成功以 Q4_K_M 量化运行 35B 参数 MoE 模型,上下文长达 768K,仅把 8 个专家卸载到 CPU,性能依旧可接受。

0 人收藏 0 人点赞
#mixture-of-experts

4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境

Reddit r/LocalLLaMA · 2026-04-20

潜水多年的老用户,首次发帖。在 4 张 RTX 3090 上对三款 Qwen 模型分别进行了 20 多个会话的实时智能体工作测试——**Qwen3.5-27B** 稠密模型、**Qwen3.5-122B-A10B** MoE 和 **Qwen3.6-35B-A3B** MoE。以下数据均解析自持续真实负载下的 vLLM 日志,而非合成基准测试。**本文所有数据的关键负载背景:** 测试框架是一个多智能体编排器,同时运行 1-6 个并发的 OpenCode 会话,Prompt 长度为 30-60k token,并且强制执行**严格的 Bash 允许列表

0 人收藏 0 人点赞
#mixture-of-experts

FineSteer: 大规模语言模型推理时细粒度控制的统一框架

arXiv cs.CL · 2026-04-20 缓存

FineSteer 是一个新颖的推理时控制框架,将控制分解为条件控制和细粒度向量合成两个阶段,采用子空间引导条件控制(SCS)和混合控制专家(MoSE)机制来提高安全性和真实性,同时保持模型效用。实验表明在 TruthfulQA 上相比最新方法有 7.6% 的性能提升,且效用损失最小。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈