GPT-5.5 产生幻觉的比率比 MIT 许可的 GLM-5.2 高出三倍

Hacker News Top 新闻

摘要

一篇比较主流AI模型幻觉率的博客文章显示,较小的开源模型(如 GLM-5.2)比大型专有模型(如 GPT-5.5)显著更少产生幻觉,这表明扩大模型规模带来的收益正在递减。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:24

# 更大的模型并非出路 来源:https://arrowtsx.dev/bigger-models 主要AI实验室正发生转变,它们对无休止的参数数量和训练数据规模扩展越来越持怀疑态度。这种范式的局限性在世界舞台上得到了体现:Claude Fable 5 在发布仅三天后就被美国政府限制,这是美国首次以国家安全为由禁止AI模型。全球最大的模型之一被禁,因为一次越狱攻击风险太大。 ## 越大越好 上述情况在几乎所有场景下都成立。全球最大的模型在Artificial Analysis Intelligence Index上得分最高。然而,Z.ai 的最新模型 GLM-5.2(753B参数,约40B激活参数)仅比GPT-5.5低4分,比Fable 5低9分。Opus 4.8和GPT-5.5是闭源模型,保守估计参数在1-2万亿范围。如果一个开放权重(MIT许可证)的大语言模型能如此接近一个估计规模大1.5到2倍的闭源模型,那么很明显,实际智能已经显著趋于平缓。 ## 越大并不越好 已有证据表明,当模型在大量高度事实性和非理论性数据上训练时,它会学会始终给出答案。DeepSeek V4 Pro(1.6万亿参数,49B激活参数,AA Intelligence Index得分44)在AA-Omniscience基准测试中的幻觉率高得离谱,达到94%。这意味着,对于它无法确定的问题,只有约6%的时候会表示不知道,其余时间则自信地给出幻觉答案。GLM-5.2的幻觉率为28%,Opus 4.8为36%,Fable 5为48%,GPT-5.5为86%。 对于如此庞大且流行的模型来说,这似乎相当严峻。让我们用一个相对复杂的Python问题来测试,该问题存在明显的架构缺陷。¹ DeepSeek V4 Pro 使用了近10倍的推理令牌,却生成了一个自信但错误的回答。而GLM-5.2仅用了12秒和约800个推理令牌,就认识到一个单线程任务在不让出控制权或不使用系统轮询的情况下,无法执行多路复用I/O的技术不可能性。(对于非技术人员来说,这就好比让一名送货司机在不停车的情况下同时将包裹送到三栋房屋。) GPT-5.5和DeepSeek V4 Pro是幻觉率最高的两个明显代表,尽管它们的规模极大。由于体积庞大,它们根本没有学会如何说“我不知道”,也无法识别复杂的逻辑和技术谬误。诚然,一个数万亿参数的模型在纸面上总是会打败轻量级消费级模型(至少目前如此),但这些巨型模型的商品化正在模糊基准测试性能与真实世界中的真实性及准确性之间的界限。 ## 现代AI的三难困境 我们应该非常谨慎地盲目增加推理预算、语料库规模或参数数量。DeepSeek V4 Pro 花费了3分26秒,在推理循环中浪费算力(原始推理过程见此处),只是为了生成一个结构优美但自信错误的解决方案。然而,一个规模只有它一半的模型几乎瞬间就识别出了悖论。即使在当今接近AGI的时代,许多最大的模型仍会积极说服你某个解决方案是正确的,并且问题按所描述的方式是可解的。 展望未来,行业不能再继续训练越来越大的模型,因为它们的智能不仅会趋于平缓,而且常常会变得更差。这对消费者也适用,因为我们不能继续仅根据规模或理论性能来选择模型。人工智能的训练和选择需要围绕现代LLM未解决的三难困境来设计:原始能力、不确定性校准/幻觉率以及计算效率。 --- ¹ 两个模型均设置为“高”推理力度,温度1,在OpenRouter上测试,系统提示为:“你以专业方式回应。你是一位非常擅长Python的编程助手。”GLM-5.2由Z.ai提供(FP8精度),DeepSeek V4 Pro由百度千帆提供(FP8精度)。↩ 版权所有 © 2026 Oliver Shrimpton。保留所有权利。

相似文章

Gemini与AI幻觉

Reddit r/artificial

讨论Google Gemini模型中的AI幻觉问题,突出大型语言模型在可靠性和准确性方面的挑战。

GLM-5.2 是本地人工智能的一次胜利

Reddit r/LocalLLaMA

GLM-5.2 是一款拥有 753B 参数、采用 MIT 许可证的开源模型,具备前沿级别的编码能力和超大的上下文窗口。其蒸馏潜力有望为本地 AI 设置带来显著改进。