@quanruzhuoxiu: 做 Midscene.js 这两年,我们做了一个迟来但关键的判断:UI 自动化迟早要从「理解 DOM」切到「看屏幕」,所以去年 12 月 1.0 版本我们直接砍掉了 DOM 兼容路径。 早期我们和大家一样,走的是 DOM + 视觉混合方案…
摘要
Midscene.js 团队决定从 DOM + 视觉混合方案彻底转向纯视觉 UI 自动化,认为未来 UI 自动化必然要基于屏幕截图而非 DOM。这一改变降低了 Token 消耗并简化了跨平台适配。
做 Midscene.js 这两年,我们做了一个迟来但关键的判断:UI 自动化迟早要从「理解 DOM」切到「看屏幕」,所以去年 12 月 1.0 版本我们直接砍掉了 DOM 兼容路径。 早期我们和大家一样,走的是 DOM + 视觉混合方案——能拿 DOM 的地方就拿,省 Token、定位稳。但跑得越深越发现:同一个产品现在要同时跑在 Web、iOS、Android、HarmonyOS、Mac、Windows、Linux 桌面端,再加上 Canvas、Electron、Qt 这些根本没有 DOM 的渲染层。如果元素定位还要为每个平台维护一套 DOM 适配,事情永远收敛不了。 所以 1.0 我们把 UI 操作彻底切到纯视觉:只看截图,不读 DOM。意外收获是,UI 操作不带 DOM 进 prompt,Token 消耗反而比之前的混合方案更低。 仓库放评论区。
相似文章
@quanruzhuoxiu: 经常被问:Midscene 和 Browser-Use 有什么区别? 都是开源,都用视觉,都解决各自该解决的问题。下面是诚实对比,不是踩 Browser-Use。 Browser-Use 是个 web agent,定位是「打开浏览器,把这…
A comparison of Midscene and Browser-Use, two open-source tools with different focuses: Browser-Use is a web agent for one-time tasks, while Midscene is a vision SDK designed for reliable multi-platform repeated execution.
@quanruzhuoxiu: Midscene.js 里我个人最得意的一个设计,其实不是 AI 部分,是 HTML 回放报告。 每次脚本跑完,自动出一份单文件 HTML 报告,里面包含: - 每一步的截图 - 模型输入的 prompt 全文 - 模型输出的 JSON(…
Midscene.js 的 HTML 回放报告设计,通过截图、prompt 和模型输出三件套帮助开发者快速定位 AI 自动化失败原因。
@quanruzhuoxiu: 用 Midscene 的 Computer Agent 时,桌面自动化在 Linux CI 里能跑无头。 大家默认桌面 UI 自动化必须挂一台真机或者 VM,所以 Mac/Windows 的桌面 E2E 通常只能跑本地,进不了 CI。结果…
Midscene的Computer Agent让桌面UI自动化可以在Linux CI中无头运行,通过xvfb-run自动化,无需真机或VM,支持Electron、Qt、GTK应用。
@billtheinvestor: 想象一下,你屏幕上的每一个像素都直接从模型实时流式传输而来。没有 HTML,没有布局引擎,没有代码。只有你想要看到的画面。@eddiejiao_obj、@drewocarr 和我构建了一个原型,以探索这在实际中如何运作,并致力于将其变为现…
Flipbook is a prototype that streams every screen pixel directly from an AI model in real time, eliminating HTML, layout engines, and traditional code.
@leeoxiang: 关于 local first 以及 cli first 的产品形态,Hyperframes 目前的交互已经是了,claude code 完成 LUI 的交互,hyperframes 会启动一个 UI 进行预览和一些必要的 GUI 交互。
Hyperframes 当前已经实现了 local first 和 CLI first 的产品形态,结合 Claude Code 完成 LUI 交互,并启动 UI 进行预览和必要的 GUI 交互。