efficient

#efficient

新模型：Nanbeige4.2-3B（Looped Transformer，性能超越4倍规模模型）

Reddit r/LocalLLaMA ↗ · 6天前

Nanbeige4.2-3B是一个新的3B参数AI模型，采用Looped Transformer架构，性能超越其4倍规模的模型。

0 人收藏 0 人点赞

#efficient

microsoft/Mage-Flow

Hugging Face Models Trending ↗ · 2026-07-21 缓存

Microsoft发布Mage-Flow，一个紧凑的4B参数基础模型，用于高效的原生分辨率文生图和基于指令的图像编辑，实现了与更大模型相媲美的质量。

0 人收藏 0 人点赞

#efficient

Mage-Flow：一个高效的原始分辨率基础模型，用于图像生成和编辑

Hugging Face Daily Papers ↗ · 2026-07-21 缓存

Mage-Flow 是一个紧凑的 4B 参数生成栈，用于高效的文本到图像生成和基于指令的图像编辑，具有共同设计的轻量级分词器（Mage-VAE）和经过整流流匹配训练的原生分辨率多模态扩散变换器。它在单个 A100 GPU 上实现 0.59 秒的高分辨率生成，同时达到具有竞争力的性能。

0 人收藏 0 人点赞

#efficient

@jun1228909: agents-a1-4b 只是随便试了些对话，但至今毫无违和感，有种30b级别模型的踏实感…

X AI KOLs Timeline ↗ · 2026-07-20

用户测试了 agents-a1-4b 模型，指出其对话质量堪比 30B 参数模型，感觉自然且连贯。

0 人收藏 0 人点赞

#efficient

@sheriyuo: 仅3B活跃参数的35B参数MoE代理模型，声称通过后训练即可匹配或超越100B级模型

X AI KOLs Timeline ↗ · 2026-07-13 缓存

一个35B参数的MoE模型，仅3B活跃参数，通过后训练强化学习匹配或超越100B级模型，实现显著效率提升。

0 人收藏 0 人点赞

#efficient

@NFTCPS: 电诈园区又有新武器用了，语音克隆这块又被卷到新高度了。 LuxTTS，一个轻量级 TTS 模型，我看完只想说三个字：真离谱。快：单卡 150 倍实时，连 CPU 都能跑得比真人说话还快清：直接 48khz，大部分模型还卡在 24khz…

X AI KOLs Timeline ↗ · 2026-07-05 缓存

LuxTTS 是一个轻量级语音克隆 TTS 模型，支持 48kHz 高清输出，单 GPU 可达 150 倍实时速度，仅需 1GB 显存即可本地运行，性能媲美十倍大的模型。

0 人收藏 0 人点赞

#efficient

gemma4 e2b 真的很棒，还有哪些小模型能在老旧电脑上运行良好？

Reddit r/LocalLLaMA ↗ · 2026-07-03

用户称赞 Gemma 4 e2b 模型在低端硬件上的速度和输出质量，将其与 ChatGPT 3.5 和 4 进行正面比较，并询问其他能在老旧电脑上运行良好的小模型推荐。

0 人收藏 0 人点赞

#efficient

一次前向胜过两次：InnerZoom实现精准高效的GUI定位

Hugging Face Daily Papers ↗ · 2026-06-29 缓存

InnerZoom提出了一种单前向框架，用于GUI定位中的跨层证据桥接，在多个基准测试上实现了最先进的性能，同时将延迟降低高达31.8%。

0 人收藏 0 人点赞

#efficient

@nickfrosst: 现在是个好日子提醒大家我们有一个Apache 2.0的编码模型，你可以在本地用20GB内存运行…

X AI KOLs Following ↗ · 2026-06-26 缓存

Cohere Labs发布North Mini Code，一个拥有300亿参数（30亿活跃）的开源编码模型，协议为Apache 2.0，针对代码生成和智能体任务优化，可通过4位量化在20GB内存的本地运行。

0 人收藏 0 人点赞

#efficient

Lite Any Stereo V2：更快更强的高效零样本立体匹配

Hugging Face Daily Papers ↗ · 2026-06-23 缓存

Lite Any Stereo V2 提出了一种高效的立体匹配方法，通过优化的架构和训练策略（包括仅2D成本聚合框架和三阶段训练策略），在显著降低延迟的同时实现了最先进的精度。

0 人收藏 0 人点赞

#efficient

@0x0SojalSec: 想象一下，在Kaggle上免费微调一个31B参数的多模态模型。现在你可以训练这个庞大的31B密集型多模态模型……

X AI KOLs Timeline ↗ · 2026-06-20 缓存

Unsloth 使得在Kaggle上免费微调31B参数的多模态模型成为可能，采用4位量化，本地运行仅需22-24GB VRAM。

0 人收藏 0 人点赞

#efficient

重新思考还是思考更久？面向预算感知推理的选择性验证

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

介绍了SEVRA，一种用于预算感知推理的选择性验证控制器，它决定何时接受模型的初始答案，何时在验证上花费额外计算资源，在MATH500和GSM8K等基准上提高了准确率并减少了不必要的token。

0 人收藏 0 人点赞

#efficient

@cjzafir: 一个3B参数的小语言模型：VibeThinker（基于Qwen 2.5微调）性能媲美Claude Opus 4.5。性能与以下模型相当： > De…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

VibeThinker是一个3B参数的模型，基于Qwen 2.5微调，通过创新的后训练方法（包括多路径思维和在数学、编程、科学上的分阶段训练），实现了与Claude Opus 4.5以及更大的模型（如DeepSeek v3）相当的性能。

0 人收藏 0 人点赞

#efficient

@rionaifantasy: 逆天了！34.5M 参数的 OCR，凭什么能赢过 235B 大模型？说个离大谱的事，我以前一直以为 OCR 的未来一定会被越来越大的多模态大模型吃掉。但看完百度文心这次发布的 PP-OCRv6，我有所改观了。因为它走的不是“继续堆参…

X AI KOLs Timeline ↗ · 2026-06-16 缓存

百度文心发布 PP-OCRv6，提供 Tiny/Small/Medium 三档模型，支持 50 多种语言；其中 Tiny 版仅 1.5MB 可在浏览器本地运行，单图预测最快 97ms，证明小型专用模型可在 OCR 任务上超越大模型。

0 人收藏 0 人点赞

#efficient

@nickfrosst: 这个模型与 mythos 相反。它体积小、成本效益高、采用 Apache 2.0 许可、可本地部署。这就是 LLM 应该走的方向…

X AI KOLs Following ↗ · 2026-06-09 缓存

Cohere 发布了 North Mini Code，这是其首个基于 Apache 2.0 的开源编码模型，设计小巧、成本效益高、可本地部署，并专注于代理性能。

0 人收藏 0 人点赞

#efficient

@LeonEnglaender: 我们核心代码团队只有8个人，我们的30B-A3B模型与Claude Haiku 4.5性能相当，并超越了NVIDIA…

X AI KOLs Timeline ↗ · 2026-06-09 缓存

一个8人团队发布了采用Apache 2.0许可的30B-A3B编码模型，其性能与Claude Haiku 4.5相当，并在Artificial Analysis Coding Index上击败了NVIDIA的120B-A12B Nemotron 3 Super。

0 人收藏 0 人点赞

#efficient

@cohere：介绍 Cohere 首个开源编码模型：North Mini Code Small，小巧高效，专为代理型性能设计…

X AI KOLs Following ↗ · 2026-06-09 缓存

Cohere 发布了其首个开源编码模型 North Mini Code Small，专为高效的代理型性能和社区反馈而设计。

0 人收藏 0 人点赞

#efficient

运行 gemma-4-26B-A4B 不需要 GPU

Reddit r/LocalLLaMA ↗ · 2026-06-07

作者展示了在仅使用 CPU 的系统上，通过 Koboldcpp 高效运行 Gemma-4-26B-A4B 模型，在一台旧台式机上达到了每秒 7 个 token 的速度，这表明运行本地大语言模型推理可能并不需要强大的 GPU。

0 人收藏 0 人点赞

#efficient

@_philschmid：我们刚刚发布了 Gemma 4 12B！这是我们首个具备原生音频输入的中型模型。Gemma 4 12B 是一个统一的、无需编码器的多模态模型。

X AI KOLs Following ↗ · 2026-06-03 缓存

我们刚刚发布了 Gemma 4 12B，一个中型多模态模型，支持原生音频输入，仅需 16GB 内存，并以 Apache 2.0 许可证发布。

0 人收藏 0 人点赞

#efficient

WeCon: 一种高效的多目标组合优化问题权重条件神经求解器

arXiv cs.LG ↗ · 2026-05-25 缓存

介绍WeCon，一种用于多目标组合优化问题的权重条件神经求解器，其超体积与现有最优方法相当，同时推理时间减少40%。

0 人收藏 0 人点赞

efficient

提交意见反馈