@quanruzhuoxiu: Midscene.js 里我个人最得意的一个设计,其实不是 AI 部分,是 HTML 回放报告。 每次脚本跑完,自动出一份单文件 HTML 报告,里面包含: - 每一步的截图 - 模型输入的 prompt 全文 - 模型输出的 JSON(…
摘要
Midscene.js 的 HTML 回放报告设计,通过截图、prompt 和模型输出三件套帮助开发者快速定位 AI 自动化失败原因。
查看缓存全文
缓存时间: 2026/05/23 04:03
Midscene.js 里我个人最得意的一个设计,其实不是 AI 部分,是 HTML 回放报告。
每次脚本跑完,自动出一份单文件 HTML 报告,里面包含:
- 每一步的截图
- 模型输入的 prompt 全文
- 模型输出的 JSON(含定位坐标)
- 在截图上画出的定位框
- 每一步耗时
为什么这个东西重要——AI 自动化最难的不是“跑得通“,是“跑不通的时候你怎么知道为什么“。传统 Playwright 失败给你一行报错;AI 自动化失败给你一句“找不到元素“,等于没说。
有了截图 + prompt + 模型输出三件套,你能精准定位是「prompt 写差了」「截图截偏了」还是「模型理解错了」,三种问题的修法完全不同。
丢个公开例子你可以直接点开看——一次让 Midscene 自动去 @midscene_ai 点赞推文的完整回放: http://lf3-static.bytednsdoc.com/obj/eden-cn/nupipfups/Midscene/1.0-showcases/x.html…
相似文章
@quanruzhuoxiu: 做 Midscene.js 这两年,我们做了一个迟来但关键的判断:UI 自动化迟早要从「理解 DOM」切到「看屏幕」,所以去年 12 月 1.0 版本我们直接砍掉了 DOM 兼容路径。 早期我们和大家一样,走的是 DOM + 视觉混合方案…
Midscene.js 团队决定从 DOM + 视觉混合方案彻底转向纯视觉 UI 自动化,认为未来 UI 自动化必然要基于屏幕截图而非 DOM。这一改变降低了 Token 消耗并简化了跨平台适配。
@geekbb: AI 写出来的技术文档动辄几千字,全在终端里滚,没人愿意看。md2html 让 AI 自动把这些 Markdown 转成带侧边栏目录、图表、时间线、卡片和警告框的 HTML 页面,一个文件就能发给团队看。 https://github.c…
md2html is a tool that converts AI-generated Markdown documents into polished, self-contained HTML pages with sidebar table of contents, diagrams, timelines, and callouts, making them easier to read and share.
@Saccc_c: 为了更直观的展现当前我有价值的 AI 产出,所以决定置顶一个长推,以方便粉丝老板们观看,后续会持续更新 当前的主要产出包括: 1)Image 2.0 + Three.js 制作 360度环绕图 2)Image 2.0 + seedance…
该推文介绍了作者利用Image 2.0、Three.js、Seedance 2.0以及Codex/Claude Code等工具制作的AI产出合集,旨在展示其当前的主要工作内容。
@AYi_AInotes: Claude团队的工程师,已经彻底抛弃Markdown了。 不是Markdown不好用, 是AI变得太快,它已经跟不上了。 以前AI写10行笔记,Markdown刚刚好, 现在AI能一次性输出1000行计划、复杂流程图、完整代码审查, 密…
Claude团队工程师放弃Markdown转向HTML,因AI输出量已从10行增至1000行,纯文字格式难以处理。HTML可生成彩色表格、SVG流程图、交互式原型等,显著提升人机协作体验,尽管生成时间增加2-4倍。
@quanruzhuoxiu: 经常被问:Midscene 和 Browser-Use 有什么区别? 都是开源,都用视觉,都解决各自该解决的问题。下面是诚实对比,不是踩 Browser-Use。 Browser-Use 是个 web agent,定位是「打开浏览器,把这…
A comparison of Midscene and Browser-Use, two open-source tools with different focuses: Browser-Use is a web agent for one-time tasks, while Midscene is a vision SDK designed for reliable multi-platform repeated execution.