Antigravity 2.0 在OpenSCAD建筑3D LLM基准测试中登顶

Hacker News Top 2026/05/22 10:38 新闻

摘要

ModelRift 对LLM进行了生成万神殿OpenSCAD代码的基准测试，Antigravity 2.0取得了最佳结果。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/22 12:23

# OpenSCAD LLM 基准测试：建造万神殿 | ModelRift 博客来源：https://modelrift.com/blog/openscad-llm-benchmark 我们运行了一个小型实战基准测试：给几个 AI 编程工具相同的任务，要求它们用 OpenSCAD 建造万神殿。 ModelRift 为平台上的每个 3D 模型生成 OpenSCAD 代码。LLM 处理空间几何的能力直接影响我们能交付的内容，因此我们跟踪模型在这类任务上的改进情况。目标是观察每个系统如何将建筑参考资料转化为参数化 CAD 代码，并使用 OpenSCAD CLI 渲染预览并迭代。提示语是视觉化和建筑导向的：从参考图像建造万神殿，包括圆形大厅、穹顶、门廊、柱子、山花和可识别的前立面细节。六张万神殿 OpenSCAD 基准预览渲染图按标签排列在 3x2 网格中 *当前六个基准测试结果概览。每个缩略图都标有运行该测试的客户端和模型。* ## 为什么选择万神殿？这不是一个基础的 OpenSCAD 语法测试。所有当前的编程 LLM 都能很好地用 OpenSCAD 生成一个简单的“带孔的立方体”。那种提示主要测试模型是否知道 `difference()`、`cube()` 和 `cylinder()`。万神殿作为基准更有用，因为它处于一个中间地带。OpenSCAD 不适合自然的雕刻模型、有机表面或类似角色的几何体。它更擅长布尔运算、径向对称、拉伸和干净的构造形状。万神殿有一个大型的径向圆形大厅和穹顶、中央圆孔、直的门廊面、柱子、阶梯基座和三角形山花。这种组合使其具有说明性，且并非不可能完成。它也是可识别的。一个弱的结果看起来仍然隐约像一座带穹顶的建筑，但更好的结果必须大致正确地处理圆形鼓座、矩形门廊、穹顶环和前立面之间的关系。 ## 为什么使用 OpenSCAD？ OpenSCAD 是 LLM 生成几何图形的理想目标，因为模型是纯文本代码，词汇量紧凑。一个智能体可以将建筑描述为嵌套变换、布尔运算、圆柱体、拉伸、循环和命名模块。这比要求它们通过 UI 操作驱动 3D 应用程序更接近语言模型已有的结构推理方式。这也是我们最初围绕 OpenSCAD 构建 ModelRift 的主要原因，详见《为什么我们在 OpenSCAD 上构建 ModelRift》(https://modelrift.com/blog/why-openscad)。这对于复杂几何体很重要。使用 OpenSCAD，LLM 可以直接在源码中说“围绕半径制作 28 根重复的柱子”或“从穹顶减去一个圆孔”。结果是可检查、可复现且易于修改的。如果柱间距错误，通常只需修改一个参数或循环，而不是隐藏的场景状态突变。正是这种文本优先的结构使得 OpenSCAD 能与参数化 UI 层（如《构建更好的 OpenSCAD 定制器》(https://modelrift.com/blog/openscad-customizer-history) 中讨论的）良好配合。 Blender MCP 和类似的工具控制方法对于某些工作流很有用，但对于这个基准测试，它们是一种不太自然的编码方式。智能体必须将建筑意图转化为一系列应用操作，然后在这些操作累积时保持场景状态的思维模型。对于 CAD 类任务，这有很多间接性。OpenSCAD 则将几何体本身作为工件。代价是 OpenSCAD 不是雕刻工具。它最适合构造性、参数化且主要是硬表面的物体。万神殿正好处于这个区域：径向对称、重复的柱子、环、切口和简单的建筑实体。它也清晰地映射到 3D 打印的实际文件输出方面：STL 仍然是基础的网格格式，而 3MF 可以携带更丰富的装配和颜色信息，正如《3D 文件格式详解》(https://modelrift.com/blog/3d-file-formats-explained) 和《我们如何在 ModelRift 中添加多色 3MF 导出》(https://modelrift.com/blog/multicolor-3mf-export) 所述。这就是为什么它是 ModelRift 希望 LLM 生成的那种几何体的有用基准。 ## 提示语基准测试使用的提示语是： ``` 查看两张参考图片，并用 OpenSCAD 实现万神殿，构建 .scad 文件。使用 OpenSCAD CLI（可用）预览工作（通过将 OpenSCAD 模型渲染为 .png）并迭代，直到对结果满意为止。 ``` ## 参考图片两张万神殿基准参考图片：左侧为正面立面视图，右侧为俯视航拍视图 *左侧参考 #1 是正面立面视图。右侧参考 #2 是俯视/顶部视图。组合图片是使用 `ffmpeg` 从基准测试中使用的两张源图片生成的。* ## 结果六张万神殿 OpenSCAD 基准预览渲染图按标签排列在 3x2 网格中 *六个当前基准测试输出，按客户端和模型标记。* 工具和模型 | 时间 | 质量 | 总结 | 链接 --- | --- | --- | --- | --- Cursor 3.5 / Composer 2.5 | ●●●●● 5/5，最快 | ●○○○○ 1.4/5 | 运行最快，但输出最弱。它捕捉到了穹顶和门廊，但比例、颜色规范和建筑细节是最差的。 | 探索 3D 结果 (https://modelrift.com/models/pantheon-benchmark-cursor-and-composer-25) Codex 5.5 High | ●●●●○ 4/5，基线 | ●●●○○ 3.0/5 | 细节密度高，包括柱顶楣构上的铭文。如果最终的 STL 文件与 PNG 预览匹配，这个结果可能略低于 Antigravity；公布的分数因导出不匹配而拉低。 | 探索 3D 结果 (https://modelrift.com/models/cube-with-six-face-holes) Claude Code 2.1 / Opus 4.7 | ●●○○○ 2/5，较慢 | ●●●○○ 3.0/5 | 结构比 Cursor 好，门廊和阶梯基座更清晰，但过于单色，且不如更强的运行结果令人信服。 | 探索 3D 结果 (https://modelrift.com/models/pantheon-benchmark-claude-code-21-and-opus-47) Claude Code 2.1 / Sonnet 4.6 | ●○○○○ 1/5，最慢 | ●●●◐○ 3.4/5 | 模型具有干净的体量、平衡的比例，以及在原始自主批次中最合理的整体解读，但实现时间最长。 | 探索 3D 结果 (https://modelrift.com/models/pantheon-benchmark-sonnet-46) **Google Antigravity 2.0 / Gemini 3.5 Flash High** **最佳自主结果** | ●○○○○ 1/5，约 12 分钟 | **●●●●◐ 4.5/5** | 最强的自主输出。它使用了真实的万神殿尺寸，包含了铭文，并且是唯一实现了标志性内部方格天花板图案的智能体。 | 探索 3D 结果 (https://modelrift.com/models/pantheon-benchmark-antigravity-20-flash-35-high) **ModelRift / Gemini Flash 3.0** **人在回路中获胜者** | ●○○○○ 1/5，约 10 分钟 | **●●●◐○ 3.8/5** | 最佳非自主结果。它使用了 ModelRift 的迭代注释工作流与 Gemini Flash 3.0，耗时约为 Claude Code 的 2 倍。 | 探索 3D 结果 (https://modelrift.com/models/pantheon-benchmark-modelrift-gemini-flash-30) 分数仅相对于此基准测试。它们不是通用的模型排名，时间分数反映观察到的实现时间，而不是项目发布时间戳。质量分数故意保守：即使是最好的结果也远非完美的万神殿模型。 ## 工作流备注客户端工作流几乎与模型同样重要。Codex Desktop 在对话中直接显示 LLM 已加载到上下文中的图片。对于可视化 CAD 工作，这非常方便：你可以看到智能体是否实际使用了你预期的相同参考。Cursor Agent 和 Claude Code CLI 是可用的，但它们的流程视图使视觉上下文不那么明确。所有测试系统都能很好地处理本地的 OpenSCAD 工具链。OpenSCAD 安装在测试 Mac 上，位于 `PATH` 中，每个智能体在迭代期间都成功使用它渲染了 PNG 预览。限制因素不是工具访问，而是几何判断、相机设置以及预览模型是否能导出为干净的最终网格。显示提示语和两张万神殿参考图片加载到上下文中的 Codex Desktop 对话 Codex 还使预览迭代更容易跟踪。它将在同一线程中暴露参考图片、OpenSCAD 文件编辑和生成的预览图片。显示万神殿模型渲染的 OpenSCAD 预览迭代的 Codex Desktop 在公开基准测试结果后，Codex 试图调查并修复有问题的屋顶和柱顶楣构导出问题。该后续操作未包含在最终基准测试结果中，因为公布的比较使用原始提交的模型。 Codex Desktop 关于门廊屋顶和穹顶交界处附近非流形 STL 面的调试说明 Cursor 拥有最快的交互循环，其 UI 并排显示了有用的计划（plan）和生成的 OpenSCAD 代码。输出质量仍然落后于较慢的运行。 Cursor Composer 流程截图，显示生成的万神殿 OpenSCAD 代码和结构化的模型计划 Claude Code 更偏向终端。它确实读取了图片并使用 OpenSCAD 命令进行了迭代，但在模型构建过程中，流程的可视性较差。 Claude Code 终端截图，显示万神殿 OpenSCAD 任务的开始 Claude Code 终端截图，显示最终万神殿模型编辑和摘要 Claude Opus 流程截图，显示 OpenSCAD 渲染命令和迭代说明 ## Google Antigravity 2.0 / Gemini 3.5 Flash High 探索 3D 结果 (https://modelrift.com/models/pantheon-benchmark-antigravity-20-flash-35-high) Google Antigravity 2.0 与 Gemini 3.5 Flash High 生成的万神殿 OpenSCAD 渲染图 *Antigravity 结果和工作流的简短演示片段。* 我们在 2026 年 5 月 22 日添加了这个运行，紧随 2026 年 5 月 19 日谷歌在 I/O 2026 (https://techcrunch.com/2026/05/19/google-launches-antigravity-2-0-with-an-updated-desktop-app-and-cli-tool-at-io-2026/) 上推出 Antigravity 2.0 并发布 Gemini 3.5 Flash (https://deepmind.google/models/model-cards/gemini-3-5-flash/) 之后。这是 Flash 3.5 的一个良好早期信号：结果是在此基准测试中最好的完全自主模型。产品背景有些混乱。Antigravity 1.0 是一个基于 VS Code 的 IDE。Antigravity 2.0 更接近 Codex Desktop：一个智能体优先的桌面应用程序，包含计划、任务执行、预览，并且较少依赖以前那种以编辑器为中心的工作流。这种转变在发布周招致了大量批评，因为希望获得以前 IDE 体验的用户除了降级或固定旧版应用外，没有顺利的回归路径。尽管迁移粗糙，但 Flash 3.5 High 在这里令人印象深刻。Antigravity 做了其他自主智能体没有做的事情：它搜索了真实的万神殿参数，而不仅仅是目测参考图片。计划和代码使用了圆形大厅、穹顶、门廊和圆孔的明确测量值，然后将它们转化为参数化的 OpenSCAD 值。实现计划比其他智能体更具建筑性： > 使用 OpenSCAD 实现罗马万神殿的详细、视觉震撼且尺寸精确的 3D 模型。它还提出了一种剖面模式，这很重要，因为万神殿不仅仅是一个外部的穹顶： > 为了同时展示外部（阶梯环、门廊）和内部（藻井、壁龛、完美的球形比例），我将在代码中包含一个切换开关 `show_cutaway = false;`。最强大的细节是天花板。该计划明确指出了实际的藻井结构： > 万神殿穹顶内部有 5 圈 28 个藻井。在 OpenSCAD 中以数学方式减去这些藻井非常详细，看起来非常棒。 Antigravity 万神殿模型特写，显示通过圆孔可见的方格天花板图案 *Antigravity 是唯一实现万神殿标志性内部天花板图案的自主智能体：通过圆孔可见的重复方格藻井。* 专用的剖面渲染使同样的选择更容易看到： Antigravity 万神殿模型的剖面渲染图，显示内部穹顶藻井外部结果也有几个在快速 OpenSCAD 输出中通常被跳过的细节：混合灰色和红色的柱材、可读的铭文、阶梯式屋顶环，以及圆形大厅、中间方块、门廊和穹顶之间正确的宽泛关系。 Antigravity 万神殿门廊特写，显示 M AGRIPPA 铭文和柱子布局质量分数为 4.5/5，速度分数为 1/5。虽然不快，但它改变了此基准测试中自主智能体的天花板。当与能够规划、渲染、检查和修订的工具配对时，Flash 3.5 在空间代码生成方面看起来非常有前景。 Google Antigravity 2.0 流程截图，显示 OpenSCAD 渲染输出与智能体工作流并列 ## ModelRift / Gemini Flash 3.0 探索 3D 结果 (https://modelrift.com/models/pantheon-benchmark-modelrift-gemini-flash-30) 人在回路中迭代后，ModelRift Gemini Flash 3 生成的万神殿 OpenSCAD 渲染图这个结果使用了 ModelRift 与 Gemini Flash 3.0 以及人在回路中的过程。它不像前四次运行那样是自主的单次基准测试。工作流耗时约 10 分钟，大约是 Claude Code 时间的 2 倍，因此获得了相同的 1/5 速度分数。该基准测试于 2026 年 5 月 21 日运行，紧随 Gemini 3.5 Flash 发布之后。上面的 Antigravity 结果表明 3.5 Flash 很强，但对于 ModelRift 的默认模型，我们仍需要在质量、成本和延迟之间取得平衡：谷歌公布的 Gemini API 定价 (https://ai.google.dev/gemini-api/docs/pricing) 列出 Gemini 3.5 Flash 标准定价为每百万输入令牌 $1.50，输出 $9.00，而 Gemini 3 Flash 定价为每百万输入 $0.50，输出 $3.00。这是之前 Flash 一代价格的 3 倍，远高于旧版 Gemini 1.5 Flash 时代的成本基线。质量优于原始的自主批次：3.8/5。模型仍然不完美，但门廊、柱子布局、屋顶、穹顶肋骨和整体体量更加连贯。主要区别在于视觉反馈可以直接附着在当前渲染图上，而不仅仅用文字描述。 ModelRift 客户端截图，显示 Gemini Flash 3 根据提示和参考图片生成第一个万神殿模型第一次 ModelRift 传递快速生成了一个有效模型，但屋顶和门廊细节仍然粗糙。这就是注释模式发挥作用的地方。 ModelRift 客户端截图，显示用户反馈信息要求 Gemini Flash 3 修复缺失的柱顶楣构和柱头无需编写冗长的空间修正，反馈可以指向渲染图上缺失或薄弱的特征。 ModelRift 注释编辑器截图，显示用于请求屋顶和穹顶修正的红色箭头和参考图片这是 ModelRift 设计所围绕的工作流：生成模型，在浏览器中检查，在渲染图上绘制视觉注释，并要求 AI 修改 OpenSCAD 代码。对于空间 CAD 任务，这种循环比纯文本指令精确得多。 ## Codex 5.5 High 探索 3D 结果 (https://modelrift.com/models/cube-with-six-face-holes) Codex 5.5 High 生成的万神殿 OpenSCAD 渲染图，包括门廊、穹顶、铭文和周围参考细节 Codex 5.5 High 生成了最密集的模型。它包括圆形大厅、穹顶肋骨、圆孔、分层砌体带、前门廊、柱子、周围基底细节，甚至柱顶楣构上的文字：`M AGRIPPA L F COS TERTIVM FECIT`。那个铭文令人印象深刻，因为在 OpenSCAD 中，文字不仅仅是装饰性的建模细节。它需要被放置、拉伸、定向，并且保持足够薄以便在不压倒几何体的情况下可读。失败模式也很有趣。在迭代期间，渲染预览看起来比最终的导出 STL 更好。

相似文章

实测 OpenCode 与自托管 LLM 的协作：Qwen 3.5、3.6、Gemma 4、Nemotron 3、GLM-4.7 Flash - v2

Reddit r/LocalLLaMA

一位开发者在 RTX 4080 上用 OpenCode 对多款自托管 LLM（Qwen 3.5/3.6、Gemma 4、Nemotron 3、GLM-4.7）进行两项编码任务基准测试，揭示了速度与质量的权衡。

Opus 4.8 刚刚打破了 ARC-AGI-3（1分钟阅读）

TLDR AI

一个名为 LisanBench 的新基准测试评估了 LLM 在需要规划、记忆和约束遵循的单词链任务上的表现，结果显示 o3 和 Anthropic 模型表现强劲。

@iluciddreaming: 玩了两个月本地 LLM。用 Windows 11 + llama.cpp + llama-swap 狂测各种开源模型，这是我的最终成绩单：硬件：i7-13700 + 64GB RAM + RTX 4070 目前最能打的组合是 gemm…

X AI KOLs Timeline

经过两个月本地 LLM 测试，作者认为 gemma-4-12B-it-QAT 和 MTP 辅助组合在速度和可用性上表现最佳，硬件为 i7-13700 + 64GB RAM + RTX 4070。

@TeksEdge: 天哪！新开源LLM之王！击败领先开源模型。开始测试以验证基准。Nex-N2-Pr…

X AI KOLs Timeline

Nex-N2-Pro是NexEcosystem新推出的开源LLM，据报道在基准测试中优于Kimi-K2.6和DeepSeek-V4-Pro等领先模型，具有自适应和连贯思维的特点。

P3D-Bench：参数化3D生成与结构推理的多模态大语言模型基准测试

Hugging Face Daily Papers

本文提出P3D-Bench，一个用于评估多模态大语言模型在参数化3D生成任务上的基准测试，涵盖文本到3D、图像到3D和组装到3D，并采用几何精度、语义对齐和部件级结构等指标。