moe

#moe

unsloth/MiMo-V2.5-GGUF · Hugging Face

Reddit r/LocalLLaMA ↗ · 2天前缓存

MiMo-V2.5 是一款原生全模态 AI 模型，具备强大的智能体（agentic）能力，在统一稀疏混合专家（MoE）架构下支持文本、图像、视频和音频的理解。

0 人收藏 1 人点赞

#moe

DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测：在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s

Reddit r/LocalLLaMA ↗ · 3天前

这篇文章详细介绍了一个经过定制并量化的 DeepSeek-V4-Flash 模型版本，启用了 MTP 自推测功能。通过修改后的 vLLM 设置，在双 RTX PRO 6000 Max-Q GPU 上实现了显著的速度提升。

0 人收藏 0 人点赞

#moe

Qwen 35B-A3B 在 12GB 显存下非常可用。

Reddit r/LocalLLaMA ↗ · 5天前

一位用户在12GB的RTX 3060上对Qwen 35B-A3B（一个35B参数的MoE模型）进行了基准测试，发现12GB显存是运行该模型并支持32k上下文时的实用甜点区，生成速度可达约47 token/秒。

0 人收藏 0 人点赞

#moe

AI2推出的新MoE模型：EMO

Reddit r/LocalLLaMA ↗ · 5天前

AI2发布了EMO，一个混合专家（MoE）语言模型，总参数量14B，其中1B活跃参数，基于1万亿tokens训练，并采用文档级路由，即专家会按领域（如健康、新闻等）进行聚类。

0 人收藏 1 人点赞

#moe

@leftcurvedev_: 任何拥有8GB或12GB显存配置的用户都需要明白，“-ncmoe”是在llama.cpp上提升性能的关键标志…

X AI KOLs Timeline ↗ · 5天前

解释了llama.cpp中的-ncmoe标志如何通过将部分专家层卸载到CPU+内存，在有限显存（8-12GB）上提升MoE模型（如Qwen3.6 35B A3B）的性能，基准测试显示在RTX 3070Ti上可实现高达5倍的加速。

0 人收藏 0 人点赞

#moe

NVIDIA 发布 Nemotron 3 Nano Omni：面向文档、音频和视频智能体的长上下文多模态智能

Hugging Face Blog ↗ · 2026-04-28 缓存

NVIDIA 发布 Nemotron 3 Nano Omni，这是一款新型长上下文多模态 AI 模型，能够以高准确性和高效率处理文档、音频、视频和文本。

0 人收藏 0 人点赞

#moe

HY-3 预览版

Reddit r/LocalLLaMA ↗ · 2026-04-23 缓存

腾讯发布 2950 亿参数的 MoE 模型 Hy3-preview，激活参数 210 亿，在 STEM 推理、指令遵循、编程与智能体任务上表现卓越。

0 人收藏 0 人点赞

#moe

3.6-27B 发布：Dense 与 MoE 差距正迅速缩小

Reddit r/LocalLLaMA ↗ · 2026-04-22

最新 3.6-27B 版本显示，MoE 在代码任务及长上下文场景中正快速逼近 Dense 模型，尽管 Dense 整体仍领先。

0 人收藏 0 人点赞

#moe

@iotcoi：OpenAI 训练了完美 LLM，让 OpenAI 自己都看不到数据 openai/privacy-filter Apache 2.0，1B 参数 MoE，本地运行我的……

X AI KOLs Timeline ↗ · 2026-04-22 缓存

OpenAI 发布 10 亿参数 Apache-2.0 MoE 模型，可在任何 LLM 接收前自动脱敏，实现完全本地、零泄露的工作流。

0 人收藏 0 人点赞

#moe

@eliebakouch：@OpenAI 这次发布太棒了！一个总参数量 1.5 B、仅激活 50 M 的 gpt-oss 架构 MoE，能从万亿级数据中廉价滤除隐私信息…

X AI KOLs Following ↗ · 2026-04-22

OpenAI 发布 15 亿总参数的 MoE 模型，仅激活 5000 万参数，即可在万亿 token 数据集中过滤隐私信息，同时保持 128 k 上下文长度。

0 人收藏 0 人点赞

#moe

Qwen3.6-35B-A3B-Plus-Uncensored-Wasserstein（神经元级手术）

Reddit r/LocalLLaMA ↗ · 2026-04-22

社区成员通过复制健康邻居权重，修复了 Qwen3.6-35B-A3B MoE 中的“死亡”神经元，并放出修复后的 GGUF 与 FP8 safetensors 版本。

0 人收藏 0 人点赞

#moe

deepseek-ai/DeepSeek-V4-Flash

Hugging Face Models Trending ↗ · 2026-04-22 缓存

DeepSeek 发布 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro，新一代 MoE 语言模型，支持 100 万 token 上下文，效率和性能均有提升。

0 人收藏 0 人点赞

#moe

为什么A10b以下的MOE让我像在赌博

Reddit r/LocalLLaMA ↗ · 2026-04-22

开发者报告称，像 qwen3.6-35b-A3b 这种“活跃参数量”较小的 MOE 模型，相比稠密的 qwen3.5-27b，一致性更低、需要更多引导，很难直接塞进智能体工作流。

0 人收藏 0 人点赞

#moe

8GB 显存跑 Qwen3.6 35B MoE 的 llama-server 配置 + 我踩的 max_tokens / thinking 陷阱

Reddit r/LocalLLaMA ↗ · 2026-04-21

作者分享了一套在 8GB RTX 4060 上跑 35B-MoE Qwen3.6 的可用 llama-server 配置，重点提示因内部推理无限制而耗尽 max_tokens 的陷阱，并给出用 per-request thinking_budget_tokens 的解决方案。

0 人收藏 0 人点赞

#moe

@QingQ77: 纯 Swift 写的 Apple Silicon LLM 推理服务器，不用 Python，低内存 Mac 也能跑大模型。 https://github.com/SharpAI/SwiftLM SwiftLM 是个 Swift 原生的推理服…

X AI KOLs Timeline ↗ · 2026-04-21

SwiftLM is a Swift-native LLM inference server for Apple Silicon that runs large models without Python, using SSD streaming to load MoE weights and enabling 122B models on 64 GB Macs.

0 人收藏 0 人点赞

#moe

LoopCTR：释放循环扩展威力，刷新点击率预测

Hugging Face Daily Papers ↗ · 2026-04-21 缓存

LoopCTR 将“循环扩展”引入推荐模型，通过基于 MoE 的专家融合与超连接残差，在提升 CTR 预测效果的同时实现 train-deep/infer-shallow 部署，满足低延迟在线服务需求。

0 人收藏 0 人点赞

#moe

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA ↗ · 2026-04-20

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试，发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首，而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能，拥有最佳的内存性价比。值得注意的是，Gemma 4 系列的表现远低于预期（31B 版本仅得 31.1%），这可能是受 Q4_K_M 量化策略的影响。

0 人收藏 0 人点赞

#moe