@atomic_chat_hq: Qwen 3.7-max 击败 Opus 4.7 和 GPT-5.5 我们在一个真实的智能体任务上测试了三款前沿模型:编写一个俄罗斯方块机器人,该机器人…
摘要
Qwen 3.7-max 在智能体俄罗斯方块机器人任务上超越了 Opus 4.7 和 GPT-5.5,以最低成本实现了最大的性能提升。
Qwen 3.7-max 击败 Opus 4.7 和 GPT-5.5。我们在一个真实的智能体任务上测试了三款前沿模型:编写一个能玩游戏并自我训练的俄罗斯方块机器人。每个模型都能读取自己的代码、运行基准测试,并在10次迭代中重写自身。然后我们将最终的机器人进行了正面比较。
Qwen 3.7-Max:训练成本 $1.32,机器人性能提升 +56%
Claude Opus 4.7:训练成本 $12.15,机器人性能提升 +28%
GPT-5.5:训练成本 $2.85,机器人性能提升 +7%
Qwen 在所有维度上获胜——提升最大,比 Claude 便宜 9 倍,比 GPT 便宜 2 倍。长智能体循环正是 Qwen Max 真正发挥作用的地方。
相似文章
Diffusion Gemma 速度快4倍,但错误多6倍!
一项基准测试显示,Diffusion Gemma 比 Gemma4 速度快4倍,但事实性错误多6倍,尤其是在冷门话题上,为了生成流畅文本而牺牲了事实准确性。
@rohanpaul_ai: NVIDIA 刚刚发布了首个代理型 AI 基准测试结果,其中 GB300 NVL72 每兆瓦可运行多达 20 倍以上的编码代理…
NVIDIA 发布了首个代理型 AI 基准测试结果,显示 GB300 NVL72 每兆瓦可运行的编码代理数量比 H200 多出 20 倍,该测试基于 Artificial Analysis 的 AgentPerf 基准。
Kimi K2.7 Code 务实胜过炫技
Kimi 发布了 K2.7 Code,这是一款专注于编程的 AI 模型,其基准测试成绩提升,且思考令牌使用量降低 30%。它更强调在长代码循环和智能体工具集成中的实际性能,而非炫目的分数。
Claude Fable 5 的 FrontierMath 分数
Epoch AI 发布了 FrontierMath 基准测试的 v2 更新,纠正了 42% 问题中的错误,并提高了所有模型的分数,但排名基本保持不变;第 1-4 级正在接近饱和。
Kimi K2.6 vs Minimax M3:成本高出5倍,结果反而更差?我做了测试。
对Kimi K2.6和Minimax M3在实际工作流中的亲测比较表明,M3成本约低5倍,而质量几乎相同,使其在生成式系统中更具成本效益。