@stevibe:哪些大模型真的“热爱思考”?实测7款模型5道数学题,推理长度大比拼。思考冠军:bo…
摘要
7款大模型在5道数学题上的基准测试;Qwen3.5 27B与35B A3B生成最长推理链,每题超10k tokens。
哪些大模型真的“热爱思考”?实测7款模型5道数学题,量化推理长度。思考冠军:两款Qwen3.5(27B与35B A3B)——究极“过度思考者”,单题可达10k+ tokens。剧情反转:> Kimi K2.6看似话痨,实则……
查看缓存全文
缓存时间: 2026/04/21 19:25
哪些大模型真的“爱思考”?实测 7 款模型 5 道数学题,量化了推理长度。
“思考狂魔”冠军:两款 Qwen3.5(27B 与 35B A3B)——极致过度思考,单题能飙到 1 万+ token。
剧情反转:> Kimi K2.6 看似话痨,实际却是
相似文章
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。
少即是多:认知负荷与LLM数学推理的单提示天花板
针对LLM形式化数学推理的实证研究发现“单提示天花板”现象:无论提示多长,准确率均停滞在60–79%,根源在于不可判定性、模型脆弱性与分布失配。
答案词元如何读取推理轨迹?思维大模型在定量推理中的自读模式
研究发现,思维大模型中的答案词元在定量推理时遵循结构化自读模式——前向漂移+聚焦关键锚点,并据此提出免训练 SRQ 引导方法,无需微调即可提升准确率。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
LLM 排名并非阶梯:来自传递性基准图的实验结果 [D]
作者介绍了 LLM Win,这是一个将大语言模型(LLM)基准测试结果可视化为有向图的工具,用于分析传递关系和排名逆转。实验结果表明,LLM 的排名更像是一个具有较高弱到强可达性的能力图,而非线性阶梯。