@RookieRicardoR: 国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。刚测完 Qwen3.7-Max，说几点真实感受。昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能…

X AI KOLs Timeline 2026/05/25 10:51 模型

qwen ai-model llm benchmark agent chinese-ai open-source

摘要

用户测试了Qwen3.7-Max，认为其在前端、算力和Agent能力上比肩Claude 4.6和Gemini 3.1 Pro等顶尖模型，推理能力显著提升，且迭代速度月更，已成为国产第一梯队。

国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。刚测完 Qwen3.7-Max，说几点真实感受。昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能力、算力能力和 Agent 能力，确实可以叫做国产第一了。之前用 DeepSeek-v4 Pro 和 Kimi 2.6 做测试的时候，一次执行的完成度均不如 Qwen3.7-Max，体感上大概是 Qwen3.7-Max > Kimi 2.6 > DeepSeek-v4 Pro，这次千问在 Terminal-Bench 排行榜也确实反超了Claude Opus 4.6，体感是一致的。推理能力我是用奥数题和几道 HMMT 的题压了一下，准确率不是第一，但明显感觉比上个月测的 3.6 又高了一档。有个细节：遇到不会的题它会老实说自己不确定，而不是硬编一个看起来合理的错误答案——这点跟 Claude 很像。还有一点，现在 Qwen 的迭代速度也太猛了，在推上虽然声量没有 Kimi 和 DeepSeek 大，但是 Qwen 在 3 月发 3.5，4 月发 3.6，5 月直接上 3.7，已经变成月更节奏了，而且每次迭代都有不小进步，现在已经是名副其实的第一梯队。在海外 OpenRouter 上 Qwen3.6-Plus 的调用量刚破了平台纪录，日调用 1.4 万亿 Token，开发者们是在拿真金白银在投票。千问这一代明显是往 Agent 方向走的，极限压测下长程任务能跑 35 小时不崩，跨 Agent 框架兼容性也比上一代好很多。具体测试视频见

查看原文

查看缓存全文

缓存时间: 2026/05/25 16:55

国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。

刚测完 Qwen3.7-Max，说几点真实感受。

昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能力、算力能力和 Agent 能力，确实可以叫做国产第一了。

之前用 DeepSeek-v4 Pro 和 Kimi 2.6 做测试的时候，一次执行的完成度均不如 Qwen3.7-Max，体感上大概是 Qwen3.7-Max > Kimi 2.6 > DeepSeek-v4 Pro，这次千问在 Terminal-Bench 排行榜也确实反超了Claude Opus 4.6，体感是一致的。

推理能力我是用奥数题和几道 HMMT 的题压了一下，准确率不是第一，但明显感觉比上个月测的 3.6 又高了一档。有个细节：遇到不会的题它会老实说自己不确定，而不是硬编一个看起来合理的错误答案——这点跟 Claude 很像。

还有一点，现在 Qwen 的迭代速度也太猛了，在推上虽然声量没有 Kimi 和 DeepSeek 大，但是 Qwen 在 3 月发 3.5，4 月发 3.6，5 月直接上 3.7，已经变成月更节奏了，而且每次迭代都有不小进步，现在已经是名副其实的第一梯队。

在海外 OpenRouter 上 Qwen3.6-Plus 的调用量刚破了平台纪录，日调用 1.4 万亿 Token，开发者们是在拿真金白银在投票。

千问这一代明显是往 Agent 方向走的，极限压测下长程任务能跑 35 小时不崩，跨 Agent 框架兼容性也比上一代好很多。

具体测试视频见

相似文章

@intheworldofai: Qwen 3.7-Max确实是我最近测试过的最令人印象深刻的智能体编码模型之一。我让它生成一个……

X AI KOLs Timeline

阿里巴巴发布了通义千问 3.7 Max，一款专为智能体时代设计的旗舰编码模型。该模型在长周期自主执行、前端生成和3D场景构建上表现突出，多项基准测试中与顶尖闭源模型持平甚至超越，是接近前沿的中国模型。

@zhixianio: 这两天新机器到了之后，我开始了「苦行僧」式的强迫自己使用本地模型来完成常见任务的修行本以为会非常痛苦，没想到无论是速度还是质量都大大超出我的预期：模型： Qwen3.6-35B-A3B-oQ6-fp16-mtp 运行：oMLX，开 N…

X AI KOLs Timeline

作者在本地新机器上使用Qwen3.6-35B-A3B模型和oMLX工具进行日常任务，发现速度和效果远超预期，甚至在PA和Coding场景下优于远程LLM，体现了端侧AI能力的显著提升。

@WEB3_furture: COOL ! 有人拿新发布Qwen 3.7-Max和Claude Opus 4.7、GPT-5.5 做 Agent 循环对比：让模型自己写俄罗斯方块机器人、自己测试、连续迭代 10 轮后直接 PK，结果： Qwen 3.7-Max：+$…

X AI KOLs Timeline

有人对Qwen 3.7-Max、Claude Opus 4.7和GPT-5.5进行Agent循环对比测试，让模型自己编写俄罗斯方块机器人并迭代10轮后PK，结果显示Qwen 3.7-Max在性能和成本上均领先。

@sitinme: 26M 参数的模型能做 Function Call，还比 Qwen-0.6B 强？这个团队反其道而行的思路太野了！现在大模型的参数量越来越大，但有一个问题一直没有被认真对待过：调用一个工具真的需要几百亿参数吗？想想看，当你说“查一下今…

X AI KOLs Timeline

Cactus 团队将 Gemini 3.1 蒸馏为仅 26M 参数的专用模型 Needle，专门用于 Function Call，性能超过 Qwen-0.6B，展示了小模型在工具调用场景下的潜力。

@jakevin7: 有个事挺有意思的。 DeepSeek V4 的技术报告，对所有主流大模型做了一轮横评，结论是——Gemini 3.1 Pro 的世界知识是所有模型里最强的。不是 GPT，不是 Claude，是 Gemini。但大家用 Gemini 的…

X AI KOLs Following

根据DeepSeek V4技术报告对主流大模型的横评，Gemini 3.1 Pro的世界知识被认为最强，但用户普遍觉得不好用，原因是该模型不主动调用搜索工具。

相似文章

@intheworldofai: Qwen 3.7-Max确实是我最近测试过的最令人印象深刻的智能体编码模型之一。我让它生成一个……

@zhixianio: 这两天新机器到了之后，我开始了「苦行僧」式的强迫自己使用本地模型来完成常见任务的修行 本以为会非常痛苦，没想到无论是速度还是质量都大大超出我的预期： 模型： Qwen3.6-35B-A3B-oQ6-fp16-mtp 运行：oMLX，开 N…

@WEB3_furture: COOL ! 有人拿 新发布Qwen 3.7-Max和Claude Opus 4.7、GPT-5.5 做 Agent 循环对比：让模型自己写俄罗斯方块机器人、自己测试、连续迭代 10 轮后直接 PK，结果： Qwen 3.7-Max：+$…

@jakevin7: 有个事挺有意思的。 DeepSeek V4 的技术报告，对所有主流大模型做了一轮横评，结论是——Gemini 3.1 Pro 的世界知识是所有模型里最强的。 不是 GPT，不是 Claude，是 Gemini。 但大家用 Gemini 的…

提交意见反馈

@zhixianio: 这两天新机器到了之后，我开始了「苦行僧」式的强迫自己使用本地模型来完成常见任务的修行本以为会非常痛苦，没想到无论是速度还是质量都大大超出我的预期：模型： Qwen3.6-35B-A3B-oQ6-fp16-mtp 运行：oMLX，开 N…

@WEB3_furture: COOL ! 有人拿新发布Qwen 3.7-Max和Claude Opus 4.7、GPT-5.5 做 Agent 循环对比：让模型自己写俄罗斯方块机器人、自己测试、连续迭代 10 轮后直接 PK，结果： Qwen 3.7-Max：+$…

@jakevin7: 有个事挺有意思的。 DeepSeek V4 的技术报告，对所有主流大模型做了一轮横评，结论是——Gemini 3.1 Pro 的世界知识是所有模型里最强的。不是 GPT，不是 Claude，是 Gemini。但大家用 Gemini 的…