@browser_use:GLM 5.2 刚刚在网站设计上击败了 Fable 5。疯狂的是:GLM 是纯文本模型。它可以构建网站,但无法检查结果……
摘要
GLM 5.2 是一个纯文本模型,在与 Browser Use v2 多模态 QA 子代理配合使用时,在网站设计上胜过 Fable 5,从而能够以低成本进行迭代改进。
GLM 5.2 刚刚在网站设计上击败了 Fable 5。
疯狂的是:GLM 是纯文本模型。
它可以构建网站,但无法检查结果。
于是我们将其与 Browser Use v2 多模态 QA 子代理配对。
> 审查网站并查找错误
> 评判美观性
> 向 GLM 发送有针对性的修复以供迭代
构建 + 完整 QA 成本低于 $0.75。
立即尝试 ↓
查看缓存全文
缓存时间: 2026/06/20 20:22
GLM 5.2 刚刚在网站设计上击败了 Fable 5。
疯狂之处在于:GLM 是纯文本模型。
它能构建网站,但无法检查结果。
于是我们将其与 Browser Use v2 多模态 QA 子代理配对。
审查网站并发现错误
评判美观性
向 GLM 发送有针对性的修复指令,以进行迭代
构建 + 完整 QA 成本不到 0.75 美元。
立即尝试 ↓
相似文章
@charles_irl: GLM 5.2 runs pretty fast on Modal.
GLM 5.2 在 Modal 云平台上展现出快速的性能表现。
@gregpr07: Browser Use Beta 刚刚在我们最难的内部网络代理基准测试中实现了 SOTA。Fable 在优化方面确实令人惊叹…
Browser Use Beta 在困难的内部网络代理基准测试中取得了先进的结果,使用了 Fable 进行优化和分析。
@browser_use: 开源权重模型已正式追赶上。我们在BrowserCode中测试了GLM 5.2,得分接近Opus级别,且是迄今为止最便宜的模型……
开源权重模型已追赶上专有模型,GLM 5.2在浏览器代理任务中以低成本实现了接近Opus级别的得分。其他模型如Minimax M3和Kimi k2.7也显示出显著的改进。
@TheAhmadOsman: GLM 5.2的数据使我相信我在自己的预测中过于保守了,最多两个月,我们就能在家玩到Fable 5
基于GLM 5.2的基准测试数据,预测开源AI模型将在两个月内与假想的Fable 5达到同等水平。
@omarsar0: GLM-5.2 在设计方面非常出色(在我看来达到了 Opus 级别)。我也开始看到在长时间运行的任务上取得了很好的结果。如何……
GLM-5.2 是一款具有 Opus 级别设计能力的开放权重模型,它集成了通过强化学习训练的反奖励破解模块,以减轻奖励破解问题并提升长时间运行任务的性能。