@intheworldofai: Qwen 3.7-Max确实是我最近测试过的最令人印象深刻的智能体编码模型之一。我让它生成一个……

X AI KOLs Timeline 模型

摘要

阿里巴巴发布了通义千问 3.7 Max,一款专为智能体时代设计的旗舰编码模型。该模型在长周期自主执行、前端生成和3D场景构建上表现突出,多项基准测试中与顶尖闭源模型持平甚至超越,是接近前沿的中国模型。

Qwen 3.7-Max确实是我最近测试过的最令人印象深刻的智能体编码模型之一。 我让它生成了一个完整的macOS风格的网页操作系统克隆,用户界面复制的效果简直令人难以置信——多个可工作的应用程序、精致的窗口管理、准确的macOS风格布局,甚至应用程序图标都是单独用SVG编码的,而不是静态图片。 阿里巴巴现在非常接近前沿实验室了。完整解析:https://youtu.be/UXar6lNCNcc
查看原文
查看缓存全文

缓存时间: 2026/05/22 19:59

Qwen 3.7-Max 确实是我最近测试过的最令人印象深刻的智能体编码模型之一。

我让它生成了一个完整的 macOS 风格 Web OS 克隆,UI 复现的效果简直惊人——多个可运行的应用程序、精致的窗口管理、准确的 macOS 风格布局,甚至连应用图标都是单独用 SVG 编码而成,而非静态图片。

阿里巴巴正迅速逼近前沿实验室的水平。完整评测:https://youtu.be/UXar6lNCNcc


TL;DR: 阿里巴巴发布通义千问 3.7 Max,一款专为智能体时代设计的高性能编码模型,在长周期自主执行、前端生成和 3D 场景构建上表现突出,多项基准测试中与顶尖闭源模型持平甚至超越。

模型概览:通义千问 3.7 Max

通义千问 3.7 Max 是阿里巴巴最新的旗舰模型,定位为“为智能体时代打造的通用基础模型”。它具备高级编码和调试能力,在前端原型制作、复杂多文件重构、办公工作流自动化、多智能体编排以及长周期自主执行方面均有出色表现。

在性能上,该模型在 Terminal Bench 2.0、SWE-bench(得分 60.6)等多个基准测试中表现强劲,与 Opus 4.6 Max、Kimik K 2.6 等模型持平,并在部分项目中超越它们。个人认为这是目前市面上最好的中国模型。

模型在困难推理评估上展现了非凡实力,同时具备强大的多语言能力。人工分析智能指数得分为 56.6,相比通义千问 3.6 Max 预览版提升了 4.8 分,主要提升集中在科学推理、编码和智能体能力。

基准测试表现

智能体编码任务:超越 Claude Opus 4.7 和 GPT 5.5

在长周期智能体编码任务中(要求模型在 10 个自主循环中迭代改进一个自训练的俄罗斯方块游戏),通义千问 3.7 Max 实现了最大改进——以 1.30 美元的成本获得 56% 的提升,大幅超越 Claude Opus 4.7(提升 28%,成本约 12.15 美元)和 GPT 5.5(提升 7%,成本约 2.85 美元)。这展示了阿里巴巴模型的高效与执行力。

世界 AI 基准套件

在自建的排行榜上,通义千问 3.7 Max 目前整体排名第八,涵盖前端、游戏、3D 图形、SVG 等多个领域。模型在几乎每个方面都表现出色,与前沿模型相当。

长周期自主执行能力

通义千问 3.7 Max 的关键差异化因素在于长周期规划和执行能力。它能够在长达 35 小时的自主执行工作流中稳定运行,连续使用 1200 次工具调用,能够调试、分析、重写甚至改进代码,且不丢失上下文或偏离方向。

定价与访问方式

  • 输入令牌:每百万 2.50 美元
  • 输出令牌:每百万 7.50 美元
  • 模型为非多模态(无法处理音频、图像、视频)

访问方式:

  • 通过免费聊天工具(创建账户即可使用通义千问 3.7 Max,支持思考模式和快速模式切换)
  • 通过 API 调用

实际生成示例

Mac OS 克隆

模型生成的 Mac OS 克隆相当出色,底部工具栏为每个应用生成了 SVG 图标,顶部工具栏功能完整可用(亮度调节、Spotlight、Launchpad)。内置的 Finder、Safari(编码不完美)、照片、地图、应用商店、系统偏好设置、终端、计算器、文本编辑器、画图应用(实际可用)、贪吃蛇游戏、天气、时钟、预览等应用均被生成。整体上,模型在生成 Mac OS 几乎所有组件方面做得很好。

前端任务

前端生成表现中等偏上,在大多数提示下输出“还行”,但部分组件不够精细。不过,提供详细说明和参考后,模型能很好地遵循指令,尤其是在滚动触发器、字体样式等方面。在中国模型中表现最佳。当提供截图(如 Airbnb 界面)作为参考时,能很好地克隆设计。另外,模型生成的编辑型 SaaS 界面风格与 Claude 的输出非常相似,引发了是否在训练中使用 Claude 输出的疑问。

3D 场景

  • 骑自行车的 Voxel 风格鹈鹕:模型创造性地生成了 Voxel 艺术,具备强大的空间推理能力,3JS 场景渲染质量好。
  • 塞尔达低多边形景观:营造氛围和环境能力出色,虽然不完美但掌握了大部分组件。
  • 逼真水族馆:模拟了鱼类的物理效果,每一条鱼的鳍都正确移动。UI 包含控制面板,开启投喂模式后点击水面顶部即可投放食物,鱼群会游上来进食。模型在动画逻辑、渲染质量与样式准确性上表现出色。
  • 3D 太阳系:各行星拥有独立属性(土星的光环、木星的眼睛),光照准确(背阳面黑暗),甚至生成了小行星带。

SVG 生成

模型在 SVG 方面表现异常出色。例如 SVG 世界地图(多数模型失败),但其他提示如 SVG 鹈鹕插图(带动画)、动画纽约城、动画信息图、蝴蝶等都生成了不错的 SVG 代码。

我的世界克隆

生成的我的世界克隆包含水(但物理效果不完善,可穿过)、破坏与放置方块、不同时间环境,甚至生成了洞穴系统。在该克隆中,玩家可以深挖地形进入洞穴,洞穴内有不同方块。

总结

通义千问 3.7 Max 在架构推理和网页开发任务处理上出奇地扎实。它在维持连贯自主工作流、遵循详细指令方面表现良好,能够成为许多工作流中的有用工具。所有测试链接见视频描述。

Source: https://www.youtube.com/watch?v=UXar6lNCNcc&feature=youtu.be

相似文章

Qwen3.6-Max-Preview

Product Hunt

阿里巴巴发布旗舰模型 Qwen3.6-Max-Preview,专为智能体编程任务优化。

Qwen 3.7 Max

Reddit r/LocalLLaMA

Qwen 3.7 是一款来自中国实验室的新AI模型,令人印象深刻,讨论焦点在于其权重是否可供下载。

Qwen3.7-Max:智能体前沿

Hacker News Top

Qwen3.7-Max 是一个专注于智能体能力的新 AI 模型发布,推动了自主 AI 智能体的边界。