@atomic_chat_hq: Qwen 3.7-max 击败 Opus 4.7 和 GPT-5.5 我们在一个真实的智能体任务上测试了三款前沿模型:编写一个俄罗斯方块机器人,该机器人…

X AI KOLs Timeline 新闻

摘要

Qwen 3.7-max 在智能体俄罗斯方块机器人任务上超越了 Opus 4.7 和 GPT-5.5,以最低成本实现了最大的性能提升。

Qwen 3.7-max 击败 Opus 4.7 和 GPT-5.5。我们在一个真实的智能体任务上测试了三款前沿模型:编写一个能玩游戏并自我训练的俄罗斯方块机器人。每个模型都能读取自己的代码、运行基准测试,并在10次迭代中重写自身。然后我们将最终的机器人进行了正面比较。 Qwen 3.7-Max:训练成本 $1.32,机器人性能提升 +56% Claude Opus 4.7:训练成本 $12.15,机器人性能提升 +28% GPT-5.5:训练成本 $2.85,机器人性能提升 +7% Qwen 在所有维度上获胜——提升最大,比 Claude 便宜 9 倍,比 GPT 便宜 2 倍。长智能体循环正是 Qwen Max 真正发挥作用的地方。
查看原文

相似文章

Diffusion Gemma 速度快4倍,但错误多6倍!

Reddit r/LocalLLaMA

一项基准测试显示,Diffusion Gemma 比 Gemma4 速度快4倍,但事实性错误多6倍,尤其是在冷门话题上,为了生成流畅文本而牺牲了事实准确性。

Kimi K2.7 Code 务实胜过炫技

Reddit r/AI_Agents

Kimi 发布了 K2.7 Code,这是一款专注于编程的 AI 模型,其基准测试成绩提升,且思考令牌使用量降低 30%。它更强调在长代码循环和智能体工具集成中的实际性能,而非炫目的分数。

Claude Fable 5 的 FrontierMath 分数

Reddit r/singularity

Epoch AI 发布了 FrontierMath 基准测试的 v2 更新,纠正了 42% 问题中的错误,并提高了所有模型的分数,但排名基本保持不变;第 1-4 级正在接近饱和。