周末体验了 Apodex 4b，顺便快速看了下 35b mini

Reddit r/LocalLLaMA 2026/06/12 08:25 模型

apodex model-release small-model local-ai react search-agent open-source

摘要

作者测试了 Apodex 4B-SFT 和 35B mini 模型，发现 4B-SFT 在多跳搜索任务中超越其他 4B 模型且无幻觉，并指出将答案检查与生成分离的设计理念。

周末项目总结。Apodex 系列模型几天前在 HF 上发布，我下载了较小的几个来一探究竟。这些是他们 1.0 版本的开源模型，包括 35B-A3B 的 mini 和 0.8B、2B、4B 的 smol SFT 系列。大型的 397B 和重型模式仅通过 API 提供，因此这里只涉及本地可运行的模型。我周末主要使用 4B，只快速试了下 35b mini，因为它在单卡上运行很吃力。它们与普通小模型的不同之处在于，它们被训练成搜索代理来运行：规划查询、调用工具，然后在自己回答前检查工作，而不是单次对话。我将 4B-SFT 接入我自己带搜索工具的小型 ReAct 框架，并向它抛出了几个多跳问题，这类问题的答案通常需要深挖三个链接，而大多数小模型只会自信地编造答案。以下是我的 3090 机器上的粗略印象：使用 vLLM 以 fp16 运行 4B，而 35B mini 则通过 transformers 运行并激进地进行 CPU 卸载，因为虽然每个 token 只有约 3B 活跃，但完整权重在磁盘上仍有 35B。卸载可以使它运行，但速度足够慢，以至于我只用于单个问题，而不是连续提问。4B-SFT 在避免最终跳转产生幻觉方面确实比我尝试过的其他 4B 级别模型更好。官方声称它在 BrowseComp 和 BrowseComp-ZH 上超越了所有开源的 30B 级别模型，虽然我无法在家中复现完整的基准测试，但在我的几个测试问题上，它明显超出了其体量。对于日常本地使用，vLLM 中的 4B 是我实际会选用的，mini 在单卡上有点大材小用。一个令人烦恼的点是，我找不到官方的 gguf，所以我自行转换了 0.8B 和 2B 用于 llama.cpp，并保留 4B 在 vLLM 中。如果有人有 35b mini 的干净量化版本，请提供。我觉得有意思的不是分数，而是设计思路：检查答案的上下文不应与生成答案的上下文相同。Apodex 是最近推动这一想法的几个团队之一，很高兴看到这种思路出现在足以在单卡上运行的小模型中。权重在 apodex/apodex-1 集合中，如果你想试试的话。如果更大模型的 gguf 转换不再魔咒缠身，我会再次汇报。

查看原文

周末体验了 Apodex 4b，顺便快速看了下 35b mini

相似文章

@cyrilXBT: Nemotron 3 Ultra 对比 DeepSeek V4 对比 MiniMax M3 对比 Qwen 3.7 Max。相同两个提示词。四个前沿模型。一个…

HalBench：我构建了一个自定义的谄媚与幻觉基准测试，并评估了4个前沿模型（Sonnet 4.6、Grok 4.3、GPT 5.4 和 Gemini 3.1 Pro），希望得到关于接下来应运行哪些开源模型的建议！

大模型价值之争 - DeepSeek V4 Pro vs MiMo-V2.5-Pro vs MiniMax M3

发布 Apodex-1.0 Smol 模型（0.8B、2B、4B 开源权重），专为智能体验证优化 + AgentHarness 评估

Qwen3.6-35B-A3B 和 9B 已正式登上公开的 Terminal-Bench 2.0 排行榜！

提交意见反馈