mixture-of-experts

#mixture-of-experts

多层级MoE缓存

Reddit r/LocalLLaMA ↗ · 11小时前

讨论MoE模型的多层级缓存策略，通过将频繁激活的专家保留在GPU上来提升推理速度，参考了PowerInfer和llama.cpp分支等现有实现。

0 人收藏 0 人点赞

#mixture-of-experts

@eliebakouch: 在GLM-5上进行强化学习所需了解的所有基础设施内容 https://primeintellect.ai/blog/rl-at-1t-scale…

X AI KOLs Timeline ↗ · 15小时前缓存

Prime Intellect发布了prime-rl v0.6.0，支持在万亿参数规模的大型Mixture-of-Experts模型上进行高效强化学习，实现低于5分钟的步骤时间，并对异步强化学习进行了优化。

0 人收藏 0 人点赞

#mixture-of-experts

Unsloth GLM-5.2 – 如何在本地运行

Hacker News Top ↗ · 21小时前缓存

使用Unsloth Dynamic GGUFs在本地运行Z.ai的开放模型GLM-5.2的指南。该模型拥有744B总参数量（40B活跃），1M上下文窗口，量化版本可将内存降至2-bit的239GB，使得在256GB Mac上实现本地推理成为可能。

0 人收藏 0 人点赞

#mixture-of-experts

@BlackRainLabs: 使用TurboQuant，我能在GTX1060 3GB上以20 tokens/秒运行qwen 3.6 35b MoE。对于这么小又老的显卡来说，简直疯狂。…

X AI KOLs Following ↗ · 昨天缓存

使用TurboQuant，用户在GTX1060 3GB上以20 tokens/秒运行Qwen 3.6 35B MoE模型，展现了在陈旧硬件上令人印象深刻的性能。

0 人收藏 0 人点赞

#mixture-of-experts

GLM-5.2 是什么？深度解析 Z.ai 的 7440亿参数智能体AI模型

Reddit r/AI_Agents ↗ · 2天前

Z.ai（原智谱AI）发布了GLM-5.2，一个7440亿参数的混合专家AI模型，专为智能体任务（如自主软件工程）设计，拥有100万token的上下文窗口、低审查机制，并在国产华为昇腾芯片上训练。

0 人收藏 0 人点赞

#mixture-of-experts

LLMs 现在变得复杂了

Hacker News Top ↗ · 3天前缓存

文章讨论了LLMs如何变得越来越复杂，从简单的Transformer堆栈演变为融入多种注意力变体、混合专家模型和多模态编码器，与推荐系统进行了类比，并强调了像FlexAttention这样可组合内核优化的必要性。

0 人收藏 0 人点赞

#mixture-of-experts

poolside/Laguna-M.1 · Hugging Face - 225B-A23B

Reddit r/LocalLLaMA ↗ · 5天前缓存

Poolside 发布了 Laguna M.1，这是一个 225B 参数的混合专家模型，每个 token 激活 23B 参数，专为代理编程和长周期任务设计。它在 SWE-bench 基准测试上取得了有竞争力的结果，并采用 Apache 2.0 许可证发布。

0 人收藏 0 人点赞

#mixture-of-experts

基于归因引导和覆盖最大化的结构化MoE压缩剪枝

arXiv cs.LG ↗ · 5天前缓存

提出了一种针对MoE模型的结构化剪枝框架，通过基于归因的近似方法最大化通道分数覆盖，在结合4比特量化时实现50%或25%的剪枝，并在Qwen3-30B-A3B上将内存占用降低5.27倍。

0 人收藏 0 人点赞

#mixture-of-experts

@jbhuang0604: Huge! It’s amazing how often Noam’s papers end up at the center of the field. In many tutorial videos I’ve made, they’v…

X AI KOLs Following ↗ · 5天前缓存

The article provides a detailed explanation of Mixture of Experts (MoE) in transformers, covering routing, load balancing, and recent innovations like fine-grained experts. It also highlights the significance of Noam Shazeer's research contributions and his move from Google to OpenAI.

0 人收藏 0 人点赞

#mixture-of-experts

@markchen90：热烈欢迎@NoamShazeer加入OpenAI，担任架构研究的新负责人！他在transformer、MoE方面的工作…

X AI KOLs Timeline ↗ · 5天前缓存

此前在Google工作的Noam Shazeer——transformer和MoE的关键研究者——将加入OpenAI，担任架构研究负责人。

0 人收藏 0 人点赞

#mixture-of-experts

Grouped Query Experts: GQA自注意力上的混合专家模型

Hugging Face Daily Papers ↗ · 5天前缓存

Grouped Query Experts (GQE) 通过在分组查询注意力之上应用混合专家层来提高Transformer效率，每个token有选择地激活查询头，同时保持键值缓存优势，在2.5亿参数规模下，以一半的查询头计算量达到与基线相同的准确率。

0 人收藏 0 人点赞

#mixture-of-experts

GLM-5.2 可能是目前最强大的纯文本开放权重大语言模型

Simon Willison's Blog ↗ · 5天前缓存

中国AI实验室Z.ai发布了GLM-5.2，这是一个拥有7530亿参数的开放权重大语言模型，支持100万token的上下文窗口，采用MIT许可证。该模型在Artificial Analysis Intelligence Index上获得最高分，并在Code Arena WebDev排行榜上排名第二。

0 人收藏 0 人点赞

#mixture-of-experts

@ying11231：在TPU上令人印象深刻的性能。

X AI KOLs Timeline ↗ · 6天前缓存

LMSYS Org 的一篇博客文章详细介绍了使用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T（一个 1 万亿参数的混合 MoE 模型），通过单个 Pallas 内核将 MoE 数据移动隐藏在计算之后，从而实现高效的推理。

0 人收藏 0 人点赞

#mixture-of-experts

@Jianlin_S: MoE (9): 门控归一化之争

X AI KOLs Timeline ↗ · 6天前

一篇讨论混合专家（MoE）模型中门控归一化之争的博客文章。

0 人收藏 0 人点赞

#mixture-of-experts

Kimi K2.7 Code：1万亿参数MoE，每百万token仅0.95美元，MIT许可证，MCP工具调用性能超越Opus 4.8

Reddit r/AI_Agents ↗ · 6天前

Moonshot AI 发布了专注于编程的开放式权重模型 Kimi K2.7 Code，拥有1万亿参数和384个专家，性能在MCP工具调用上超越Opus 4.8，成本仅为十分之一。

0 人收藏 0 人点赞

#mixture-of-experts

MODE: 面向MoE多模态大语言模型的模态分解专家级混合精度量化框架

arXiv cs.LG ↗ · 6天前缓存

本文介绍MODE，一种用于MoE多模态大语言模型的模态分解专家级混合精度量化框架，通过按模态分解选择频率并过滤冗余视觉标记来解决专家重要性估计中的偏差，在激进量化下实现极小的性能损失。

0 人收藏 0 人点赞

#mixture-of-experts

@iScienceLuvr：学习稀疏潜在预测基础模型用于多模态神经影像本文介绍了Neuro-JEPA，一个基…

X AI KOLs Following ↗ · 2026-06-16 缓存

本文介绍了Neuro-JEPA，一个基础模型，它使用潜在预测目标和混合专家架构来编码跨T1w、T2w和FLAIR序列的脑部MRI扫描，并在包含155万次扫描的大型数据集上进行了预训练。

0 人收藏 0 人点赞

#mixture-of-experts

面向数据稀缺时间序列的统一生成模型：结合领域专家

arXiv cs.LG ↗ · 2026-06-16 缓存

介绍TimeMoDE，这是一个将扩散Transformer与混合专家模型相结合的框架，用于在数据稀缺条件下生成逼真的时间序列。该框架通过在多个领域的数据集上进行预训练，并利用领域提示来处理领域特定特征，同时结合扩散时间步信号实现自适应去噪。

0 人收藏 0 人点赞

#mixture-of-experts

Claude Fable 5 蒸馏版

Reddit r/LocalLLaMA ↗ · 2026-06-16 缓存

Qwable-v1 是一个开放权重的代理编码模型（35B MoE，3B 活跃参数），通过串联来自 Claude Opus 4.7 推理和 Claude Fable-5 代理工具使用轨迹的蒸馏构建。它能够显式思考 CoT 链，并在提示时充当类似 Claude-Code 风格的代理。

0 人收藏 0 人点赞

#mixture-of-experts

解耦的Mixture-of-Experts用于参数化知识注入

arXiv cs.CL ↗ · 2026-06-15 缓存

Decoupled Mixture-of-Experts (DMoE) 提出了一种用于参数化知识注入的模块化架构，将专家和路由器从基础模型中解耦，以实现高效的自回归推理并缓解灾难性遗忘。

0 人收藏 0 人点赞

mixture-of-experts

提交意见反馈