标签
DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。
AI2发布了EMO,一个混合专家(MoE)语言模型,总参数量14B,其中1B活跃参数,基于1万亿tokens训练,并采用文档级路由,即专家会按领域(如健康、新闻等)进行聚类。
Allen AI 发布了 EMO 模型,这是一种混合专家模型,其中模块化结构从数据中自然涌现,使得仅使用 12.5% 的专家就能完成一项任务,同时保持接近完整模型的性能。
本报告介绍了 ZAYA1-8B,这是一款在 AMD 硬件上训练的混合专家推理模型,使用少于 10 亿的激活参数在数学和编程基准测试中取得了具有竞争力的性能。报告还详细介绍了马尔可夫式 RSA(Markovian RSA),这是一种用于聚合并行推理轨迹的新型测试时计算(test-time compute)方法。
本文提出了一种针对稀疏混合专家(MoE)模型中通信高效专家路由的信息论框架,将门控机制视为随机信道,并推导实用的互信息估计器以分析有限专家库上的准确率-速率权衡。
MACS是一个无需训练的推理框架,通过引入熵加权负载和动态模态自适应容量机制,减轻多模态MoE MLLMs在专家并行中的落后效应。
EMO 是一种专家混合模型(Mixture-of-Experts),通过将相似领域的词元与共享专家分组实现模块化部署,在保持与标准 MoE 相当的性能的同时,支持显著的专家剪枝(保留 25% 的专家即可保留 99% 的性能)且不会导致性能下降。
UniPool 为混合专家(MoE)模型引入了一种共享专家池架构,在降低参数随深度增长的同时,相较于标准 MoE 基线提高了效率和性能。
Jackrong 发布 Qwopus3.6-35B-A3B-v1,基于阿里巴巴 Qwen3.6 MoE 模型的推理增强微调版本,针对逻辑推理和智能体编程优化,拥有 350 亿总参数和 30 亿激活参数。
Zyphra 发布了 ZAYA1-8B,这是一款拥有 84 亿参数的混合专家模型(Mixture-of-Experts),其中活跃参数为 7.6 亿。该模型在数学和代码推理任务中展现出极高的效率与卓越的性能。
本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。
NVIDIA 宣布推出 Nemotron 3 Nano Omni,这是一款开放的多模态模型,通过统一视觉、音频和语言处理,使 AI Agent 能够更快、更高效地运行。与其他开放式的 Omni 模型相比,其吞吐量最高可提高 9 倍。
小米发布了 MiMo-V2.5-Pro,这是一个开源的 MoE 语言模型,拥有 1.02T 总参数和 1M token 上下文长度,专为复杂的智能体(Agent)和软件工程任务进行了优化。
Poolside 发布 Laguna XS.2,这是一个拥有 33B 总参数、3B 激活参数的 MoE 模型,专为智能体编码设计,可在配备 36GB RAM 的 Mac 上本地部署。
DeepSeek 发布了 V4-Pro 和 V4-Flash,这些混合专家模型采用混合注意力机制和 Muon 优化器,支持百万 token 级上下文。
SAMoRA 通过引入语义感知路由器和任务自适应缩放,在 MoE-LoRA 微调中提升专家专业化与动态加权,在多任务基准上显著优于现有方法。
Ling-2.6-flash 是 104B 总参/7.4B 激活的稀疏指令模型,专为 token 效率优化,可在智能体任务中降低成本、提升吞吐。
用户报告称,通过 llama.cpp 分支,在 RTX 3090 上成功以 Q4_K_M 量化运行 35B 参数 MoE 模型,上下文长达 768K,仅把 8 个专家卸载到 CPU,性能依旧可接受。
潜水多年的老用户,首次发帖。在 4 张 RTX 3090 上对三款 Qwen 模型分别进行了 20 多个会话的实时智能体工作测试——**Qwen3.5-27B** 稠密模型、**Qwen3.5-122B-A10B** MoE 和 **Qwen3.6-35B-A3B** MoE。以下数据均解析自持续真实负载下的 vLLM 日志,而非合成基准测试。**本文所有数据的关键负载背景:** 测试框架是一个多智能体编排器,同时运行 1-6 个并发的 OpenCode 会话,Prompt 长度为 30-60k token,并且强制执行**严格的 Bash 允许列表
FineSteer 是一个新颖的推理时控制框架,将控制分解为条件控制和细粒度向量合成两个阶段,采用子空间引导条件控制(SCS)和混合控制专家(MoSE)机制来提高安全性和真实性,同时保持模型效用。实验表明在 TruthfulQA 上相比最新方法有 7.6% 的性能提升,且效用损失最小。