@intheworldofai: Qwen 3.7-Max is genuinely one of the most impressive agentic coding models I’ve tested in a while. I had it generate a …
Summary
阿里巴巴发布了通义千问 3.7 Max,一款专为智能体时代设计的旗舰编码模型。该模型在长周期自主执行、前端生成和3D场景构建上表现突出,多项基准测试中与顶尖闭源模型持平甚至超越,是接近前沿的中国模型。
View Cached Full Text
Cached at: 05/22/26, 07:59 PM
Qwen 3.7-Max is genuinely one of the most impressive agentic coding models I’ve tested in a while.
I had it generate a full macOS-style web OS clone and the UI replication was honestly kinda insane — multiple working apps, polished window management, accurate macOS-style layouts, and even the app icons were individually SVG-coded instead of being static images.
Alibaba is getting VERY close to the frontier labs now. Full Breakdown: https://youtu.be/UXar6lNCNcc
TL;DR: 阿里巴巴发布通义千问 3.7 Max,一款专为智能体时代设计的高性能编码模型,在长周期自主执行、前端生成和 3D 场景构建上表现突出,多项基准测试中与顶尖闭源模型持平甚至超越。
模型概览:通义千问 3.7 Max
通义千问 3.7 Max 是阿里巴巴最新的旗舰模型,定位为“为智能体时代打造的通用基础模型”。它具备高级编码和调试能力,在前端原型制作、复杂多文件重构、办公工作流自动化、多智能体编排以及长周期自主执行方面均有出色表现。
在性能上,该模型在 Terminal Bench 2.0、SWE-bench(得分 60.6)等多个基准测试中表现强劲,与 Opus 4.6 Max、Kimik K 2.6 等模型持平,并在部分项目中超越它们。个人认为这是目前市面上最好的中国模型。
模型在困难推理评估上展现了非凡实力,同时具备强大的多语言能力。人工分析智能指数得分为 56.6,相比通义千问 3.6 Max 预览版提升了 4.8 分,主要提升集中在科学推理、编码和智能体能力。
基准测试表现
智能体编码任务:超越 Claude Opus 4.7 和 GPT 5.5
在长周期智能体编码任务中(要求模型在 10 个自主循环中迭代改进一个自训练的俄罗斯方块游戏),通义千问 3.7 Max 实现了最大改进——以 1.30 美元的成本获得 56% 的提升,大幅超越 Claude Opus 4.7(提升 28%,成本约 12.15 美元)和 GPT 5.5(提升 7%,成本约 2.85 美元)。这展示了阿里巴巴模型的高效与执行力。
世界 AI 基准套件
在自建的排行榜上,通义千问 3.7 Max 目前整体排名第八,涵盖前端、游戏、3D 图形、SVG 等多个领域。模型在几乎每个方面都表现出色,与前沿模型相当。
长周期自主执行能力
通义千问 3.7 Max 的关键差异化因素在于长周期规划和执行能力。它能够在长达 35 小时的自主执行工作流中稳定运行,连续使用 1200 次工具调用,能够调试、分析、重写甚至改进代码,且不丢失上下文或偏离方向。
定价与访问方式
- 输入令牌:每百万 2.50 美元
- 输出令牌:每百万 7.50 美元
- 模型为非多模态(无法处理音频、图像、视频)
访问方式:
- 通过免费聊天工具(创建账户即可使用通义千问 3.7 Max,支持思考模式和快速模式切换)
- 通过 API 调用
实际生成示例
Mac OS 克隆
模型生成的 Mac OS 克隆相当出色,底部工具栏为每个应用生成了 SVG 图标,顶部工具栏功能完整可用(亮度调节、Spotlight、Launchpad)。内置的 Finder、Safari(编码不完美)、照片、地图、应用商店、系统偏好设置、终端、计算器、文本编辑器、画图应用(实际可用)、贪吃蛇游戏、天气、时钟、预览等应用均被生成。整体上,模型在生成 Mac OS 几乎所有组件方面做得很好。
前端任务
前端生成表现中等偏上,在大多数提示下输出“还行”,但部分组件不够精细。不过,提供详细说明和参考后,模型能很好地遵循指令,尤其是在滚动触发器、字体样式等方面。在中国模型中表现最佳。当提供截图(如 Airbnb 界面)作为参考时,能很好地克隆设计。另外,模型生成的编辑型 SaaS 界面风格与 Claude 的输出非常相似,引发了是否在训练中使用 Claude 输出的疑问。
3D 场景
- 骑自行车的 Voxel 风格鹈鹕:模型创造性地生成了 Voxel 艺术,具备强大的空间推理能力,3JS 场景渲染质量好。
- 塞尔达低多边形景观:营造氛围和环境能力出色,虽然不完美但掌握了大部分组件。
- 逼真水族馆:模拟了鱼类的物理效果,每一条鱼的鳍都正确移动。UI 包含控制面板,开启投喂模式后点击水面顶部即可投放食物,鱼群会游上来进食。模型在动画逻辑、渲染质量与样式准确性上表现出色。
- 3D 太阳系:各行星拥有独立属性(土星的光环、木星的眼睛),光照准确(背阳面黑暗),甚至生成了小行星带。
SVG 生成
模型在 SVG 方面表现异常出色。例如 SVG 世界地图(多数模型失败),但其他提示如 SVG 鹈鹕插图(带动画)、动画纽约城、动画信息图、蝴蝶等都生成了不错的 SVG 代码。
我的世界克隆
生成的我的世界克隆包含水(但物理效果不完善,可穿过)、破坏与放置方块、不同时间环境,甚至生成了洞穴系统。在该克隆中,玩家可以深挖地形进入洞穴,洞穴内有不同方块。
总结
通义千问 3.7 Max 在架构推理和网页开发任务处理上出奇地扎实。它在维持连贯自主工作流、遵循详细指令方面表现良好,能够成为许多工作流中的有用工具。所有测试链接见视频描述。
Source: https://www.youtube.com/watch?v=UXar6lNCNcc&feature=youtu.be
Similar Articles
@rohanpaul_ai: Qwen 3.7 Max is super close to the frontier models for coding and agentic abilities. And and it’s now available on AI/M…
Qwen 3.7 Max, a new AI model from Qwen, is now available via AI/ML API, showing competitive coding and agentic abilities close to frontier models like GPT-5.4 and Gemini 3.5 Flash. Free promo codes are being offered to try it.
@RookieRicardoR: Domestic models break through again, matching top models like Claude 4.6 and Gemini 3.1 Pro. Just tested Qwen3.7-Max, sharing some real thoughts. Last night I topped up as soon as the API went live and chose three tasks (see video) to test Qwen3.7-Max's frontend capabilities…
The user tested Qwen3.7-Max and believes it matches top models like Claude 4.6 and Gemini 3.1 Pro in frontend, computing power, and Agent capabilities. Its reasoning ability has significantly improved, and with monthly iteration speed, it has become a first-tier domestic model.
Qwen3.6-Max-Preview
Alibaba releases Qwen3.6-Max-Preview, a flagship model optimized for agentic coding tasks.
Qwen 3.7 Max
Qwen 3.7 is an impressive new AI model from Chinese labs, with discussion on whether weights will be available for download.
Qwen3.7-Max: The Agent Frontier
Qwen3.7-Max is a new AI model release focused on agent capabilities, pushing the boundaries of autonomous AI agents.