moe

标签

Cards List
#moe

unsloth/MiMo-V2.5-GGUF · Hugging Face

Reddit r/LocalLLaMA · 2天前 缓存

MiMo-V2.5 是一款原生全模态 AI 模型,具备强大的智能体(agentic)能力,在统一稀疏混合专家(MoE)架构下支持文本、图像、视频和音频的理解。

0 人收藏 1 人点赞
#moe

DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测:在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s

Reddit r/LocalLLaMA · 3天前

这篇文章详细介绍了一个经过定制并量化的 DeepSeek-V4-Flash 模型版本,启用了 MTP 自推测功能。通过修改后的 vLLM 设置,在双 RTX PRO 6000 Max-Q GPU 上实现了显著的速度提升。

0 人收藏 0 人点赞
#moe

Qwen 35B-A3B 在 12GB 显存下非常可用。

Reddit r/LocalLLaMA · 4天前

一位用户在12GB的RTX 3060上对Qwen 35B-A3B(一个35B参数的MoE模型)进行了基准测试,发现12GB显存是运行该模型并支持32k上下文时的实用甜点区,生成速度可达约47 token/秒。

0 人收藏 0 人点赞
#moe

AI2推出的新MoE模型:EMO

Reddit r/LocalLLaMA · 5天前

AI2发布了EMO,一个混合专家(MoE)语言模型,总参数量14B,其中1B活跃参数,基于1万亿tokens训练,并采用文档级路由,即专家会按领域(如健康、新闻等)进行聚类。

0 人收藏 1 人点赞
#moe

@leftcurvedev_: 任何拥有8GB或12GB显存配置的用户都需要明白,“-ncmoe”是在llama.cpp上提升性能的关键标志…

X AI KOLs Timeline · 5天前

解释了llama.cpp中的-ncmoe标志如何通过将部分专家层卸载到CPU+内存,在有限显存(8-12GB)上提升MoE模型(如Qwen3.6 35B A3B)的性能,基准测试显示在RTX 3070Ti上可实现高达5倍的加速。

0 人收藏 0 人点赞
#moe

NVIDIA 发布 Nemotron 3 Nano Omni:面向文档、音频和视频智能体的长上下文多模态智能

Hugging Face Blog · 2026-04-28 缓存

NVIDIA 发布 Nemotron 3 Nano Omni,这是一款新型长上下文多模态 AI 模型,能够以高准确性和高效率处理文档、音频、视频和文本。

0 人收藏 0 人点赞
#moe

HY-3 预览版

Reddit r/LocalLLaMA · 2026-04-23 缓存

腾讯发布 2950 亿参数的 MoE 模型 Hy3-preview,激活参数 210 亿,在 STEM 推理、指令遵循、编程与智能体任务上表现卓越。

0 人收藏 0 人点赞
#moe

3.6-27B 发布:Dense 与 MoE 差距正迅速缩小

Reddit r/LocalLLaMA · 2026-04-22

最新 3.6-27B 版本显示,MoE 在代码任务及长上下文场景中正快速逼近 Dense 模型,尽管 Dense 整体仍领先。

0 人收藏 0 人点赞
#moe

@iotcoi:OpenAI 训练了完美 LLM,让 OpenAI 自己都看不到数据 openai/privacy-filter Apache 2.0,1B 参数 MoE,本地运行 我的……

X AI KOLs Timeline · 2026-04-22 缓存

OpenAI 发布 10 亿参数 Apache-2.0 MoE 模型,可在任何 LLM 接收前自动脱敏,实现完全本地、零泄露的工作流。

0 人收藏 0 人点赞
#moe

@eliebakouch:@OpenAI 这次发布太棒了!一个总参数量 1.5 B、仅激活 50 M 的 gpt-oss 架构 MoE,能从万亿级数据中廉价滤除隐私信息…

X AI KOLs Following · 2026-04-22

OpenAI 发布 15 亿总参数的 MoE 模型,仅激活 5000 万参数,即可在万亿 token 数据集中过滤隐私信息,同时保持 128 k 上下文长度。

0 人收藏 0 人点赞
#moe

Qwen3.6-35B-A3B-Plus-Uncensored-Wasserstein(神经元级手术)

Reddit r/LocalLLaMA · 2026-04-22

社区成员通过复制健康邻居权重,修复了 Qwen3.6-35B-A3B MoE 中的“死亡”神经元,并放出修复后的 GGUF 与 FP8 safetensors 版本。

0 人收藏 0 人点赞
#moe

deepseek-ai/DeepSeek-V4-Flash

Hugging Face Models Trending · 2026-04-22 缓存

DeepSeek 发布 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro,新一代 MoE 语言模型,支持 100 万 token 上下文,效率和性能均有提升。

0 人收藏 0 人点赞
#moe

为什么A10b以下的MOE让我像在赌博

Reddit r/LocalLLaMA · 2026-04-22

开发者报告称,像 qwen3.6-35b-A3b 这种“活跃参数量”较小的 MOE 模型,相比稠密的 qwen3.5-27b,一致性更低、需要更多引导,很难直接塞进智能体工作流。

0 人收藏 0 人点赞
#moe

8GB 显存跑 Qwen3.6 35B MoE 的 llama-server 配置 + 我踩的 max_tokens / thinking 陷阱

Reddit r/LocalLLaMA · 2026-04-21

作者分享了一套在 8GB RTX 4060 上跑 35B-MoE Qwen3.6 的可用 llama-server 配置,重点提示因内部推理无限制而耗尽 max_tokens 的陷阱,并给出用 per-request thinking_budget_tokens 的解决方案。

0 人收藏 0 人点赞
#moe

@QingQ77: 纯 Swift 写的 Apple Silicon LLM 推理服务器,不用 Python,低内存 Mac 也能跑大模型。 https://github.com/SharpAI/SwiftLM SwiftLM 是个 Swift 原生的推理服…

X AI KOLs Timeline · 2026-04-21

SwiftLM is a Swift-native LLM inference server for Apple Silicon that runs large models without Python, using SSD streaming to load MoE weights and enabling 122B models on 64 GB Macs.

0 人收藏 0 人点赞
#moe

LoopCTR:释放循环扩展威力,刷新点击率预测

Hugging Face Daily Papers · 2026-04-21 缓存

LoopCTR 将“循环扩展”引入推荐模型,通过基于 MoE 的专家融合与超连接残差,在提升 CTR 预测效果的同时实现 train-deep/infer-shallow 部署,满足低延迟在线服务需求。

0 人收藏 0 人点赞
#moe

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA · 2026-04-20

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。

0 人收藏 0 人点赞
#moe

@AdinaYakup: Kimi 2.6 已上线 @huggingface https://huggingface.co/moonshotai/Kimi-K2.6… 1T MoE / 32B 激活 / 256K 上下文…

X AI KOLs Following · 2026-04-20

Moonshot AI 发布 Kimi 2.6:1 万亿参数 MoE 模型,激活 320 亿,上下文 256K,300 子智能体集群,可推理 4,000 步。

0 人收藏 0 人点赞
#moe

unsloth/Kimi-K2.6-GGUF

Hugging Face Models Trending · 2026-04-20 缓存

Unsloth 推出开源 1T 参数 Kimi K2.6 MoE 模型的量化 GGUF 版本,专为长程编码、自主智能体集群及生产级设计任务优化。

0 人收藏 0 人点赞
#moe

RedHatAI/Qwen3.6-35B-A3B-NVFP4

Hugging Face Models Trending · 2026-04-17 缓存

Red Hat AI 发布 NVFP4 量化的 35B MoE 版 Qwen3.6,在保持 96.28% GSM8K 精度的同时,通过 vLLM 实现 4-bit 推理。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈