@stevibe:哪些大模型真的“热爱思考”?实测7款模型5道数学题,推理长度大比拼。思考冠军:bo…
摘要
7款大模型在5道数学题上的基准测试;Qwen3.5 27B与35B A3B生成最长推理链,每题超10k tokens。
哪些大模型真的“热爱思考”?实测7款模型5道数学题,量化推理长度。思考冠军:两款Qwen3.5(27B与35B A3B)——究极“过度思考者”,单题可达10k+ tokens。剧情反转:> Kimi K2.6看似话痨,实则……
查看缓存全文
缓存时间: 2026/04/21 19:25
哪些大模型真的“爱思考”?实测 7 款模型 5 道数学题,量化了推理长度。
“思考狂魔”冠军:两款 Qwen3.5(27B 与 35B A3B)——极致过度思考,单题能飙到 1 万+ token。
剧情反转:> Kimi K2.6 看似话痨,实际却是
相似文章
大语言模型在最长简单链式推理任务上的表现如何:关于等价类问题的实证研究
本实证研究通过评估大语言模型在等价类问题上的表现,以考察其长链推理能力。研究发现,非推理模型在此类任务上表现失败,而推理模型虽表现更好,但仍难以完全解决特定结构性难题。
LLMEval-Logic:一个经过求解器验证的、带有对抗性加固的大语言模型逻辑推理中文基准
LLMEval-Logic 是一个新的中文基准,专门评估大语言模型的逻辑推理能力,具有求解器验证的答案和对抗性加固。该基准揭示了当前模型的显著差距,最佳模型在困难项目上仅达到37.5%的准确率。
MA-ProofBench:一种用于数学分析中定理证明的LLMs两级评估
MA-ProofBench是一个新的形式化基准,用于评估LLMs在数学分析中的定理证明能力,包含200个问题,分为两个难度级别。最佳模型GPT-5.5在Level I上仅达到16%,在Level II上为5%,突显了非形式化推理与形式化推理之间的显著差距。
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。
mmPISA-bench:LLMs 在43种语言中的推理能力是否同样出色?
介绍 mmPISA-bench,一个源自PISA的紧凑型多语言推理基准,评估了专有LLMs在43种语言上的表现,发现它们能有效推理但存在一些性能差异,且机器翻译的问题不会降低准确率。