@stevibe:哪些大模型真的“热爱思考”?实测7款模型5道数学题,推理长度大比拼。思考冠军:bo…

X AI KOLs Timeline 模型

摘要

7款大模型在5道数学题上的基准测试;Qwen3.5 27B与35B A3B生成最长推理链,每题超10k tokens。

哪些大模型真的“热爱思考”?实测7款模型5道数学题,量化推理长度。思考冠军:两款Qwen3.5(27B与35B A3B)——究极“过度思考者”,单题可达10k+ tokens。剧情反转:> Kimi K2.6看似话痨,实则……
查看原文
查看缓存全文

缓存时间: 2026/04/21 19:25

哪些大模型真的“爱思考”?实测 7 款模型 5 道数学题,量化了推理长度。
“思考狂魔”冠军:两款 Qwen3.5(27B 与 35B A3B)——极致过度思考,单题能飙到 1 万+ token。
剧情反转:> Kimi K2.6 看似话痨,实际却是

相似文章

MA-ProofBench:一种用于数学分析中定理证明的LLMs两级评估

arXiv cs.AI

MA-ProofBench是一个新的形式化基准,用于评估LLMs在数学分析中的定理证明能力,包含200个问题,分为两个难度级别。最佳模型GPT-5.5在Level I上仅达到16%,在Level II上为5%,突显了非形式化推理与形式化推理之间的显著差距。