@atomic_chat_hq: Qwen 3.7-max 击败 Opus 4.7 和 GPT-5.5 我们在一个真实的智能体任务上测试了三款前沿模型：编写一个俄罗斯方块机器人，该机器人…

X AI KOLs Timeline 2026/05/21 21:57 新闻

ai-models comparison agentic-loops coding tetris benchmark

摘要

Qwen 3.7-max 在智能体俄罗斯方块机器人任务上超越了 Opus 4.7 和 GPT-5.5，以最低成本实现了最大的性能提升。

Qwen 3.7-max 击败 Opus 4.7 和 GPT-5.5。我们在一个真实的智能体任务上测试了三款前沿模型：编写一个能玩游戏并自我训练的俄罗斯方块机器人。每个模型都能读取自己的代码、运行基准测试，并在10次迭代中重写自身。然后我们将最终的机器人进行了正面比较。 Qwen 3.7-Max：训练成本 $1.32，机器人性能提升 +56% Claude Opus 4.7：训练成本 $12.15，机器人性能提升 +28% GPT-5.5：训练成本 $2.85，机器人性能提升 +7% Qwen 在所有维度上获胜——提升最大，比 Claude 便宜 9 倍，比 GPT 便宜 2 倍。长智能体循环正是 Qwen Max 真正发挥作用的地方。

查看原文

@atomic_chat_hq: Qwen 3.7-max 击败 Opus 4.7 和 GPT-5.5 我们在一个真实的智能体任务上测试了三款前沿模型：编写一个俄罗斯方块机器人，该机器人…

相似文章

Diffusion Gemma 速度快4倍，但错误多6倍！

@rohanpaul_ai: NVIDIA 刚刚发布了首个代理型 AI 基准测试结果，其中 GB300 NVL72 每兆瓦可运行多达 20 倍以上的编码代理…

Kimi K2.7 Code 务实胜过炫技

Claude Fable 5 的 FrontierMath 分数

Kimi K2.6 vs Minimax M3：成本高出5倍，结果反而更差？我做了测试。

提交意见反馈