周末体验了 Apodex 4b,顺便快速看了下 35b mini

Reddit r/LocalLLaMA 模型

摘要

作者测试了 Apodex 4B-SFT 和 35B mini 模型,发现 4B-SFT 在多跳搜索任务中超越其他 4B 模型且无幻觉,并指出将答案检查与生成分离的设计理念。

周末项目总结。Apodex 系列模型几天前在 HF 上发布,我下载了较小的几个来一探究竟。这些是他们 1.0 版本的开源模型,包括 35B-A3B 的 mini 和 0.8B、2B、4B 的 smol SFT 系列。大型的 397B 和重型模式仅通过 API 提供,因此这里只涉及本地可运行的模型。我周末主要使用 4B,只快速试了下 35b mini,因为它在单卡上运行很吃力。它们与普通小模型的不同之处在于,它们被训练成搜索代理来运行:规划查询、调用工具,然后在自己回答前检查工作,而不是单次对话。我将 4B-SFT 接入我自己带搜索工具的小型 ReAct 框架,并向它抛出了几个多跳问题,这类问题的答案通常需要深挖三个链接,而大多数小模型只会自信地编造答案。以下是我的 3090 机器上的粗略印象:使用 vLLM 以 fp16 运行 4B,而 35B mini 则通过 transformers 运行并激进地进行 CPU 卸载,因为虽然每个 token 只有约 3B 活跃,但完整权重在磁盘上仍有 35B。卸载可以使它运行,但速度足够慢,以至于我只用于单个问题,而不是连续提问。4B-SFT 在避免最终跳转产生幻觉方面确实比我尝试过的其他 4B 级别模型更好。官方声称它在 BrowseComp 和 BrowseComp-ZH 上超越了所有开源的 30B 级别模型,虽然我无法在家中复现完整的基准测试,但在我的几个测试问题上,它明显超出了其体量。对于日常本地使用,vLLM 中的 4B 是我实际会选用的,mini 在单卡上有点大材小用。一个令人烦恼的点是,我找不到官方的 gguf,所以我自行转换了 0.8B 和 2B 用于 llama.cpp,并保留 4B 在 vLLM 中。如果有人有 35b mini 的干净量化版本,请提供。我觉得有意思的不是分数,而是设计思路:检查答案的上下文不应与生成答案的上下文相同。Apodex 是最近推动这一想法的几个团队之一,很高兴看到这种思路出现在足以在单卡上运行的小模型中。权重在 apodex/apodex-1 集合中,如果你想试试的话。如果更大模型的 gguf 转换不再魔咒缠身,我会再次汇报。
查看原文

相似文章

HalBench:我构建了一个自定义的谄媚与幻觉基准测试,并评估了4个前沿模型(Sonnet 4.6、Grok 4.3、GPT 5.4 和 Gemini 3.1 Pro),希望得到关于接下来应运行哪些开源模型的建议!

Reddit r/LocalLLaMA

HalBench 是一个新的开放基准测试,用于衡量大语言模型中的谄媚与幻觉现象,通过 3,200 个基于错误前提的提示对四个前沿模型进行了测试。结果显示,Sonnet 4.6 和 Grok 4.3 在诚实反驳方面优于 GPT-5.4 和 Gemini 3.1 Pro。