@stevibe：哪些大模型真的“热爱思考”？实测7款模型5道数学题，推理长度大比拼。思考冠军：bo…

X AI KOLs Timeline 2026/04/21 14:54 模型

reasoning math benchmark token-usage

摘要

7款大模型在5道数学题上的基准测试；Qwen3.5 27B与35B A3B生成最长推理链，每题超10k tokens。

哪些大模型真的“热爱思考”？实测7款模型5道数学题，量化推理长度。思考冠军：两款Qwen3.5（27B与35B A3B）——究极“过度思考者”，单题可达10k+ tokens。剧情反转：> Kimi K2.6看似话痨，实则……

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 19:25

哪些大模型真的“爱思考”？实测 7 款模型 5 道数学题，量化了推理长度。
“思考狂魔”冠军：两款 Qwen3.5（27B 与 35B A3B）——极致过度思考，单题能飙到 1 万+ token。
剧情反转：> Kimi K2.6 看似话痨，实际却是

相似文章

揭示大语言模型中的数学推理：内部机制的方法学研究

arXiv cs.CL

本文通过早期解码分析大语言模型的内部机制，研究其如何执行算术运算。研究发现，能力强的模型在推理任务中，注意力模块和 MLP 模块之间呈现明确的分工。

少即是多：认知负荷与LLM数学推理的单提示天花板

arXiv cs.CL

针对LLM形式化数学推理的实证研究发现“单提示天花板”现象：无论提示多长，准确率均停滞在60–79%，根源在于不可判定性、模型脆弱性与分布失配。

答案词元如何读取推理轨迹？思维大模型在定量推理中的自读模式

arXiv cs.CL

研究发现，思维大模型中的答案词元在定量推理时遵循结构化自读模式——前向漂移+聚焦关键锚点，并据此提出免训练 SRQ 引导方法，无需微调即可提升准确率。

学习如何让大语言模型进行推理

OpenAI Blog

OpenAI 发布了一篇文章，通过密码破译示例探索大语言模型的推理技术，展示了语言模型的逐步问题求解和模式识别能力。

LLM 排名并非阶梯：来自传递性基准图的实验结果 [D]

Reddit r/MachineLearning

作者介绍了 LLM Win，这是一个将大语言模型（LLM）基准测试结果可视化为有向图的工具，用于分析传递关系和排名逆转。实验结果表明，LLM 的排名更像是一个具有较高弱到强可达性的能力图，而非线性阶梯。

提交意见反馈