@browser_use：GLM 5.2 刚刚在网站设计上击败了 Fable 5。疯狂的是：GLM 是纯文本模型。它可以构建网站，但无法检查结果……

X AI KOLs Following 2026/06/20 18:48 模型

llm website-design text-only multimodal qa-agent automation comparison

摘要

GLM 5.2 是一个纯文本模型，在与 Browser Use v2 多模态 QA 子代理配合使用时，在网站设计上胜过 Fable 5，从而能够以低成本进行迭代改进。

GLM 5.2 刚刚在网站设计上击败了 Fable 5。疯狂的是：GLM 是纯文本模型。它可以构建网站，但无法检查结果。于是我们将其与 Browser Use v2 多模态 QA 子代理配对。 > 审查网站并查找错误 > 评判美观性 > 向 GLM 发送有针对性的修复以供迭代构建 + 完整 QA 成本低于 $0.75。立即尝试 ↓

查看原文

查看缓存全文

缓存时间: 2026/06/20 20:22

GLM 5.2 刚刚在网站设计上击败了 Fable 5。

疯狂之处在于：GLM 是纯文本模型。
它能构建网站，但无法检查结果。

于是我们将其与 Browser Use v2 多模态 QA 子代理配对。

审查网站并发现错误
评判美观性
向 GLM 发送有针对性的修复指令，以进行迭代

构建 + 完整 QA 成本不到 0.75 美元。
立即尝试 ↓

相似文章

@charles_irl: GLM 5.2 runs pretty fast on Modal.

X AI KOLs Following

GLM 5.2 在 Modal 云平台上展现出快速的性能表现。

@gregpr07: Browser Use Beta 刚刚在我们最难的内部网络代理基准测试中实现了 SOTA。Fable 在优化方面确实令人惊叹…

X AI KOLs Following

Browser Use Beta 在困难的内部网络代理基准测试中取得了先进的结果，使用了 Fable 进行优化和分析。

@browser_use: 开源权重模型已正式追赶上。我们在BrowserCode中测试了GLM 5.2，得分接近Opus级别，且是迄今为止最便宜的模型……

X AI KOLs Following

开源权重模型已追赶上专有模型，GLM 5.2在浏览器代理任务中以低成本实现了接近Opus级别的得分。其他模型如Minimax M3和Kimi k2.7也显示出显著的改进。

@TheAhmadOsman: GLM 5.2的数据使我相信我在自己的预测中过于保守了，最多两个月，我们就能在家玩到Fable 5

X AI KOLs Following

基于GLM 5.2的基准测试数据，预测开源AI模型将在两个月内与假想的Fable 5达到同等水平。

@omarsar0: GLM-5.2 在设计方面非常出色（在我看来达到了 Opus 级别）。我也开始看到在长时间运行的任务上取得了很好的结果。如何……

X AI KOLs Following

GLM-5.2 是一款具有 Opus 级别设计能力的开放权重模型，它集成了通过强化学习训练的反奖励破解模块，以减轻奖励破解问题并提升长时间运行任务的性能。

相似文章

@charles_irl: GLM 5.2 runs pretty fast on Modal.

@gregpr07: Browser Use Beta 刚刚在我们最难的内部网络代理基准测试中实现了 SOTA。Fable 在优化方面确实令人惊叹…

@browser_use: 开源权重模型已正式追赶上。我们在BrowserCode中测试了GLM 5.2，得分接近Opus级别，且是迄今为止最便宜的模型……

@TheAhmadOsman: GLM 5.2的数据使我相信我在自己的预测中过于保守了，最多两个月，我们就能在家玩到Fable 5

@omarsar0: GLM-5.2 在设计方面非常出色（在我看来达到了 Opus 级别）。我也开始看到在长时间运行的任务上取得了很好的结果。如何……

提交意见反馈