周末体验了 Apodex 4b,顺便快速看了下 35b mini
摘要
作者测试了 Apodex 4B-SFT 和 35B mini 模型,发现 4B-SFT 在多跳搜索任务中超越其他 4B 模型且无幻觉,并指出将答案检查与生成分离的设计理念。
周末项目总结。Apodex 系列模型几天前在 HF 上发布,我下载了较小的几个来一探究竟。这些是他们 1.0 版本的开源模型,包括 35B-A3B 的 mini 和 0.8B、2B、4B 的 smol SFT 系列。大型的 397B 和重型模式仅通过 API 提供,因此这里只涉及本地可运行的模型。我周末主要使用 4B,只快速试了下 35b mini,因为它在单卡上运行很吃力。它们与普通小模型的不同之处在于,它们被训练成搜索代理来运行:规划查询、调用工具,然后在自己回答前检查工作,而不是单次对话。我将 4B-SFT 接入我自己带搜索工具的小型 ReAct 框架,并向它抛出了几个多跳问题,这类问题的答案通常需要深挖三个链接,而大多数小模型只会自信地编造答案。以下是我的 3090 机器上的粗略印象:使用 vLLM 以 fp16 运行 4B,而 35B mini 则通过 transformers 运行并激进地进行 CPU 卸载,因为虽然每个 token 只有约 3B 活跃,但完整权重在磁盘上仍有 35B。卸载可以使它运行,但速度足够慢,以至于我只用于单个问题,而不是连续提问。4B-SFT 在避免最终跳转产生幻觉方面确实比我尝试过的其他 4B 级别模型更好。官方声称它在 BrowseComp 和 BrowseComp-ZH 上超越了所有开源的 30B 级别模型,虽然我无法在家中复现完整的基准测试,但在我的几个测试问题上,它明显超出了其体量。对于日常本地使用,vLLM 中的 4B 是我实际会选用的,mini 在单卡上有点大材小用。一个令人烦恼的点是,我找不到官方的 gguf,所以我自行转换了 0.8B 和 2B 用于 llama.cpp,并保留 4B 在 vLLM 中。如果有人有 35b mini 的干净量化版本,请提供。我觉得有意思的不是分数,而是设计思路:检查答案的上下文不应与生成答案的上下文相同。Apodex 是最近推动这一想法的几个团队之一,很高兴看到这种思路出现在足以在单卡上运行的小模型中。权重在 apodex/apodex-1 集合中,如果你想试试的话。如果更大模型的 gguf 转换不再魔咒缠身,我会再次汇报。
相似文章
@cyrilXBT: Nemotron 3 Ultra 对比 DeepSeek V4 对比 MiniMax M3 对比 Qwen 3.7 Max。相同两个提示词。四个前沿模型。一个…
四种前沿AI模型(Nemotron 3 Ultra、DeepSeek V4、MiniMax M3、Qwen 3.7 Max)在相同两个提示词上的对比,附完整结果链接。
HalBench:我构建了一个自定义的谄媚与幻觉基准测试,并评估了4个前沿模型(Sonnet 4.6、Grok 4.3、GPT 5.4 和 Gemini 3.1 Pro),希望得到关于接下来应运行哪些开源模型的建议!
HalBench 是一个新的开放基准测试,用于衡量大语言模型中的谄媚与幻觉现象,通过 3,200 个基于错误前提的提示对四个前沿模型进行了测试。结果显示,Sonnet 4.6 和 Grok 4.3 在诚实反驳方面优于 GPT-5.4 和 Gemini 3.1 Pro。
大模型价值之争 - DeepSeek V4 Pro vs MiMo-V2.5-Pro vs MiniMax M3
一场讨论,比较DeepSeek V4 Pro、MiMo-V2.5-Pro和MiniMax M3在本地或OpenRouter使用中的最佳性价比,重点关注代理和编码任务,并提及Hermes Agent和Qwen 3.6变体。
发布 Apodex-1.0 Smol 模型(0.8B、2B、4B 开源权重),专为智能体验证优化 + AgentHarness 评估
Apodex 发布了开源权重的小型模型(0.8B、2B、4B),专为智能体验证任务优化,同时推出了用于本地智能体工作流的 AgentHarness 评估框架。
Qwen3.6-35B-A3B 和 9B 已正式登上公开的 Terminal-Bench 2.0 排行榜!
Qwen3.6-35B-A3B 和 Qwen3.5-9B 模型已正式登上 Terminal-Bench 2.0 排行榜,其中 little-coder 在 35B 变体上取得 24.6% 的成绩,超越了 Gemini 2.5 Pro 和 Qwen3-Coder-480B;而 9B 模型则表明,10B 以下的本地模型能够与高难度代理基准竞争。