@quanruzhuoxiu: 做 Midscene.js 这两年，我们做了一个迟来但关键的判断：UI 自动化迟早要从「理解 DOM」切到「看屏幕」，所以去年 12 月 1.0 版本我们直接砍掉了 DOM 兼容路径。早期我们和大家一样，走的是 DOM + 视觉混合方案…

X AI KOLs Timeline 2026/05/14 14:00 工具

ui-automation visual-testing midscene-js dom-alternative token-efficiency cross-platform

摘要

Midscene.js 团队决定从 DOM + 视觉混合方案彻底转向纯视觉 UI 自动化，认为未来 UI 自动化必然要基于屏幕截图而非 DOM。这一改变降低了 Token 消耗并简化了跨平台适配。

做 Midscene.js 这两年，我们做了一个迟来但关键的判断：UI 自动化迟早要从「理解 DOM」切到「看屏幕」，所以去年 12 月 1.0 版本我们直接砍掉了 DOM 兼容路径。早期我们和大家一样，走的是 DOM + 视觉混合方案——能拿 DOM 的地方就拿，省 Token、定位稳。但跑得越深越发现：同一个产品现在要同时跑在 Web、iOS、Android、HarmonyOS、Mac、Windows、Linux 桌面端，再加上 Canvas、Electron、Qt 这些根本没有 DOM 的渲染层。如果元素定位还要为每个平台维护一套 DOM 适配，事情永远收敛不了。所以 1.0 我们把 UI 操作彻底切到纯视觉：只看截图，不读 DOM。意外收获是，UI 操作不带 DOM 进 prompt，Token 消耗反而比之前的混合方案更低。仓库放评论区。

查看原文

相似文章

@quanruzhuoxiu: 经常被问：Midscene 和 Browser-Use 有什么区别？都是开源，都用视觉，都解决各自该解决的问题。下面是诚实对比，不是踩 Browser-Use。 Browser-Use 是个 web agent，定位是「打开浏览器，把这…

X AI KOLs Timeline

A comparison of Midscene and Browser-Use, two open-source tools with different focuses: Browser-Use is a web agent for one-time tasks, while Midscene is a vision SDK designed for reliable multi-platform repeated execution.

@quanruzhuoxiu: Midscene.js 里我个人最得意的一个设计，其实不是 AI 部分，是 HTML 回放报告。每次脚本跑完，自动出一份单文件 HTML 报告，里面包含： - 每一步的截图 - 模型输入的 prompt 全文 - 模型输出的 JSON（…

X AI KOLs Timeline

Midscene.js 的 HTML 回放报告设计，通过截图、prompt 和模型输出三件套帮助开发者快速定位 AI 自动化失败原因。

@quanruzhuoxiu: 用 Midscene 的 Computer Agent 时，桌面自动化在 Linux CI 里能跑无头。大家默认桌面 UI 自动化必须挂一台真机或者 VM，所以 Mac/Windows 的桌面 E2E 通常只能跑本地，进不了 CI。结果…

X AI KOLs Timeline

Midscene的Computer Agent让桌面UI自动化可以在Linux CI中无头运行，通过xvfb-run自动化，无需真机或VM，支持Electron、Qt、GTK应用。

@billtheinvestor: 想象一下，你屏幕上的每一个像素都直接从模型实时流式传输而来。没有 HTML，没有布局引擎，没有代码。只有你想要看到的画面。@eddiejiao_obj、@drewocarr 和我构建了一个原型，以探索这在实际中如何运作，并致力于将其变为现…

X AI KOLs Timeline

Flipbook is a prototype that streams every screen pixel directly from an AI model in real time, eliminating HTML, layout engines, and traditional code.

@leeoxiang: 关于 local first 以及 cli first 的产品形态，Hyperframes 目前的交互已经是了，claude code 完成 LUI 的交互，hyperframes 会启动一个 UI 进行预览和一些必要的 GUI 交互。

X AI KOLs Following

Hyperframes 当前已经实现了 local first 和 CLI first 的产品形态，结合 Claude Code 完成 LUI 交互，并启动 UI 进行预览和必要的 GUI 交互。

相似文章

@quanruzhuoxiu: 经常被问：Midscene 和 Browser-Use 有什么区别？ 都是开源，都用视觉，都解决各自该解决的问题。下面是诚实对比，不是踩 Browser-Use。 Browser-Use 是个 web agent，定位是「打开浏览器，把这…

@quanruzhuoxiu: Midscene.js 里我个人最得意的一个设计，其实不是 AI 部分，是 HTML 回放报告。 每次脚本跑完，自动出一份单文件 HTML 报告，里面包含： - 每一步的截图 - 模型输入的 prompt 全文 - 模型输出的 JSON（…

@quanruzhuoxiu: 用 Midscene 的 Computer Agent 时，桌面自动化在 Linux CI 里能跑无头。 大家默认桌面 UI 自动化必须挂一台真机或者 VM，所以 Mac/Windows 的桌面 E2E 通常只能跑本地，进不了 CI。结果…

@leeoxiang: 关于 local first 以及 cli first 的产品形态，Hyperframes 目前的交互已经是了，claude code 完成 LUI 的交互，hyperframes 会启动一个 UI 进行预览和一些必要的 GUI 交互。

提交意见反馈

@quanruzhuoxiu: 经常被问：Midscene 和 Browser-Use 有什么区别？都是开源，都用视觉，都解决各自该解决的问题。下面是诚实对比，不是踩 Browser-Use。 Browser-Use 是个 web agent，定位是「打开浏览器，把这…

@quanruzhuoxiu: Midscene.js 里我个人最得意的一个设计，其实不是 AI 部分，是 HTML 回放报告。每次脚本跑完，自动出一份单文件 HTML 报告，里面包含： - 每一步的截图 - 模型输入的 prompt 全文 - 模型输出的 JSON（…

@quanruzhuoxiu: 用 Midscene 的 Computer Agent 时，桌面自动化在 Linux CI 里能跑无头。大家默认桌面 UI 自动化必须挂一台真机或者 VM，所以 Mac/Windows 的桌面 E2E 通常只能跑本地，进不了 CI。结果…