@intheworldofai: Qwen 3.7-Max确实是我最近测试过的最令人印象深刻的智能体编码模型之一。我让它生成一个……

X AI KOLs Timeline 2026/05/22 07:10 模型

qwen-3-7-max agentic-coding alibaba ai-model coding-model benchmark frontend-generation

摘要

阿里巴巴发布了通义千问 3.7 Max，一款专为智能体时代设计的旗舰编码模型。该模型在长周期自主执行、前端生成和3D场景构建上表现突出，多项基准测试中与顶尖闭源模型持平甚至超越，是接近前沿的中国模型。

Qwen 3.7-Max确实是我最近测试过的最令人印象深刻的智能体编码模型之一。我让它生成了一个完整的macOS风格的网页操作系统克隆，用户界面复制的效果简直令人难以置信——多个可工作的应用程序、精致的窗口管理、准确的macOS风格布局，甚至应用程序图标都是单独用SVG编码的，而不是静态图片。阿里巴巴现在非常接近前沿实验室了。完整解析：https://youtu.be/UXar6lNCNcc

查看原文

查看缓存全文

缓存时间: 2026/05/22 19:59

Qwen 3.7-Max 确实是我最近测试过的最令人印象深刻的智能体编码模型之一。

我让它生成了一个完整的 macOS 风格 Web OS 克隆，UI 复现的效果简直惊人——多个可运行的应用程序、精致的窗口管理、准确的 macOS 风格布局，甚至连应用图标都是单独用 SVG 编码而成，而非静态图片。

阿里巴巴正迅速逼近前沿实验室的水平。完整评测：https://youtu.be/UXar6lNCNcc

TL;DR: 阿里巴巴发布通义千问 3.7 Max,一款专为智能体时代设计的高性能编码模型,在长周期自主执行、前端生成和 3D 场景构建上表现突出,多项基准测试中与顶尖闭源模型持平甚至超越。

模型概览：通义千问 3.7 Max

通义千问 3.7 Max 是阿里巴巴最新的旗舰模型,定位为“为智能体时代打造的通用基础模型”。它具备高级编码和调试能力,在前端原型制作、复杂多文件重构、办公工作流自动化、多智能体编排以及长周期自主执行方面均有出色表现。

在性能上,该模型在 Terminal Bench 2.0、SWE-bench(得分 60.6)等多个基准测试中表现强劲,与 Opus 4.6 Max、Kimik K 2.6 等模型持平,并在部分项目中超越它们。个人认为这是目前市面上最好的中国模型。

模型在困难推理评估上展现了非凡实力,同时具备强大的多语言能力。人工分析智能指数得分为 56.6,相比通义千问 3.6 Max 预览版提升了 4.8 分,主要提升集中在科学推理、编码和智能体能力。

基准测试表现

智能体编码任务：超越 Claude Opus 4.7 和 GPT 5.5

在长周期智能体编码任务中(要求模型在 10 个自主循环中迭代改进一个自训练的俄罗斯方块游戏),通义千问 3.7 Max 实现了最大改进——以 1.30 美元的成本获得 56% 的提升,大幅超越 Claude Opus 4.7(提升 28%,成本约 12.15 美元)和 GPT 5.5(提升 7%,成本约 2.85 美元)。这展示了阿里巴巴模型的高效与执行力。

世界 AI 基准套件

在自建的排行榜上,通义千问 3.7 Max 目前整体排名第八,涵盖前端、游戏、3D 图形、SVG 等多个领域。模型在几乎每个方面都表现出色,与前沿模型相当。

长周期自主执行能力

通义千问 3.7 Max 的关键差异化因素在于长周期规划和执行能力。它能够在长达 35 小时的自主执行工作流中稳定运行,连续使用 1200 次工具调用,能够调试、分析、重写甚至改进代码,且不丢失上下文或偏离方向。

定价与访问方式

输入令牌：每百万 2.50 美元
输出令牌：每百万 7.50 美元
模型为非多模态(无法处理音频、图像、视频)

访问方式：

通过免费聊天工具(创建账户即可使用通义千问 3.7 Max,支持思考模式和快速模式切换)
通过 API 调用

实际生成示例

Mac OS 克隆

模型生成的 Mac OS 克隆相当出色,底部工具栏为每个应用生成了 SVG 图标,顶部工具栏功能完整可用(亮度调节、Spotlight、Launchpad)。内置的 Finder、Safari(编码不完美)、照片、地图、应用商店、系统偏好设置、终端、计算器、文本编辑器、画图应用(实际可用)、贪吃蛇游戏、天气、时钟、预览等应用均被生成。整体上,模型在生成 Mac OS 几乎所有组件方面做得很好。

前端任务

前端生成表现中等偏上,在大多数提示下输出“还行”,但部分组件不够精细。不过,提供详细说明和参考后,模型能很好地遵循指令,尤其是在滚动触发器、字体样式等方面。在中国模型中表现最佳。当提供截图(如 Airbnb 界面)作为参考时,能很好地克隆设计。另外,模型生成的编辑型 SaaS 界面风格与 Claude 的输出非常相似,引发了是否在训练中使用 Claude 输出的疑问。

3D 场景

骑自行车的 Voxel 风格鹈鹕：模型创造性地生成了 Voxel 艺术,具备强大的空间推理能力,3JS 场景渲染质量好。
塞尔达低多边形景观：营造氛围和环境能力出色,虽然不完美但掌握了大部分组件。
逼真水族馆：模拟了鱼类的物理效果,每一条鱼的鳍都正确移动。UI 包含控制面板,开启投喂模式后点击水面顶部即可投放食物,鱼群会游上来进食。模型在动画逻辑、渲染质量与样式准确性上表现出色。
3D 太阳系：各行星拥有独立属性(土星的光环、木星的眼睛),光照准确(背阳面黑暗),甚至生成了小行星带。

SVG 生成

模型在 SVG 方面表现异常出色。例如 SVG 世界地图(多数模型失败),但其他提示如 SVG 鹈鹕插图(带动画)、动画纽约城、动画信息图、蝴蝶等都生成了不错的 SVG 代码。

我的世界克隆

生成的我的世界克隆包含水(但物理效果不完善,可穿过)、破坏与放置方块、不同时间环境,甚至生成了洞穴系统。在该克隆中,玩家可以深挖地形进入洞穴,洞穴内有不同方块。

总结

通义千问 3.7 Max 在架构推理和网页开发任务处理上出奇地扎实。它在维持连贯自主工作流、遵循详细指令方面表现良好,能够成为许多工作流中的有用工具。所有测试链接见视频描述。

Source: https://www.youtube.com/watch?v=UXar6lNCNcc&feature=youtu.be

相似文章

@rohanpaul_ai: Qwen 3.7 Max 在编码和智能代理能力方面非常接近前沿模型。而且它现在已经在AI/ML API上可用。

X AI KOLs Following

Qwen 3.7 Max，Qwen 推出的新AI模型，现已通过AI/ML API提供，展现出接近GPT-5.4和Gemini 3.5 Flash等前沿模型的编码和智能代理能力。提供免费促销代码供用户试用。

@RookieRicardoR: 国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。刚测完 Qwen3.7-Max，说几点真实感受。昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能…

X AI KOLs Timeline

用户测试了Qwen3.7-Max，认为其在前端、算力和Agent能力上比肩Claude 4.6和Gemini 3.1 Pro等顶尖模型，推理能力显著提升，且迭代速度月更，已成为国产第一梯队。

@intheworldofai: Qwen 3.7-Max确实是我最近测试过的最令人印象深刻的智能体编码模型之一。我让它生成一个……

模型概览：通义千问 3.7 Max

基准测试表现

智能体编码任务：超越 Claude Opus 4.7 和 GPT 5.5

世界 AI 基准套件

长周期自主执行能力

定价与访问方式

实际生成示例

Mac OS 克隆

前端任务

3D 场景

SVG 生成

我的世界克隆

总结

相似文章

@rohanpaul_ai: Qwen 3.7 Max 在编码和智能代理能力方面非常接近前沿模型。而且它现在已经在AI/ML API上可用。

@RookieRicardoR: 国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。刚测完 Qwen3.7-Max，说几点真实感受。昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能…

Qwen3.6-Max-Preview

Qwen 3.7 Max

Qwen3.7-Max：智能体前沿

提交意见反馈

模型概览：通义千问 3.7 Max

基准测试表现

智能体编码任务：超越 Claude Opus 4.7 和 GPT 5.5

世界 AI 基准套件

长周期自主执行能力

定价与访问方式

实际生成示例

Mac OS 克隆

前端任务

3D 场景

SVG 生成

我的世界克隆

总结

相似文章

@rohanpaul_ai: Qwen 3.7 Max 在编码和智能代理能力方面非常接近前沿模型。而且它现在已经在AI/ML API上可用。

@RookieRicardoR: 国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。 刚测完 Qwen3.7-Max，说几点真实感受。 昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能…

Qwen3.6-Max-Preview

Qwen 3.7 Max

Qwen3.7-Max：智能体前沿

提交意见反馈

@RookieRicardoR: 国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。刚测完 Qwen3.7-Max，说几点真实感受。昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能…