@quanruzhuoxiu: Midscene.js 里我个人最得意的一个设计,其实不是 AI 部分,是 HTML 回放报告。 每次脚本跑完,自动出一份单文件 HTML 报告,里面包含: - 每一步的截图 - 模型输入的 prompt 全文 - 模型输出的 JSON(…

X AI KOLs Timeline 工具

摘要

Midscene.js 的 HTML 回放报告设计,通过截图、prompt 和模型输出三件套帮助开发者快速定位 AI 自动化失败原因。

Midscene.js 里我个人最得意的一个设计,其实不是 AI 部分,是 HTML 回放报告。 每次脚本跑完,自动出一份单文件 HTML 报告,里面包含: - 每一步的截图 - 模型输入的 prompt 全文 - 模型输出的 JSON(含定位坐标) - 在截图上画出的定位框 - 每一步耗时 为什么这个东西重要——AI 自动化最难的不是"跑得通",是"跑不通的时候你怎么知道为什么"。传统 Playwright 失败给你一行报错;AI 自动化失败给你一句"找不到元素",等于没说。 有了截图 + prompt + 模型输出三件套,你能精准定位是「prompt 写差了」「截图截偏了」还是「模型理解错了」,三种问题的修法完全不同。 丢个公开例子你可以直接点开看——一次让 Midscene 自动去 @midscene_ai 点赞推文的完整回放: http://lf3-static.bytednsdoc.com/obj/eden-cn/nupipfups/Midscene/1.0-showcases/x.html…
查看原文
查看缓存全文

缓存时间: 2026/05/23 04:03

Midscene.js 里我个人最得意的一个设计,其实不是 AI 部分,是 HTML 回放报告。

每次脚本跑完,自动出一份单文件 HTML 报告,里面包含:

  • 每一步的截图
  • 模型输入的 prompt 全文
  • 模型输出的 JSON(含定位坐标)
  • 在截图上画出的定位框
  • 每一步耗时

为什么这个东西重要——AI 自动化最难的不是“跑得通“,是“跑不通的时候你怎么知道为什么“。传统 Playwright 失败给你一行报错;AI 自动化失败给你一句“找不到元素“,等于没说。

有了截图 + prompt + 模型输出三件套,你能精准定位是「prompt 写差了」「截图截偏了」还是「模型理解错了」,三种问题的修法完全不同。

丢个公开例子你可以直接点开看——一次让 Midscene 自动去 @midscene_ai 点赞推文的完整回放: http://lf3-static.bytednsdoc.com/obj/eden-cn/nupipfups/Midscene/1.0-showcases/x.html…

相似文章

@quanruzhuoxiu: 做 Midscene.js 这两年,我们做了一个迟来但关键的判断:UI 自动化迟早要从「理解 DOM」切到「看屏幕」,所以去年 12 月 1.0 版本我们直接砍掉了 DOM 兼容路径。 早期我们和大家一样,走的是 DOM + 视觉混合方案…

X AI KOLs Timeline

Midscene.js 团队决定从 DOM + 视觉混合方案彻底转向纯视觉 UI 自动化,认为未来 UI 自动化必然要基于屏幕截图而非 DOM。这一改变降低了 Token 消耗并简化了跨平台适配。

@geekbb: AI 写出来的技术文档动辄几千字,全在终端里滚,没人愿意看。md2html 让 AI 自动把这些 Markdown 转成带侧边栏目录、图表、时间线、卡片和警告框的 HTML 页面,一个文件就能发给团队看。 https://github.c…

X AI KOLs Timeline

md2html is a tool that converts AI-generated Markdown documents into polished, self-contained HTML pages with sidebar table of contents, diagrams, timelines, and callouts, making them easier to read and share.

@AYi_AInotes: Claude团队的工程师,已经彻底抛弃Markdown了。 不是Markdown不好用, 是AI变得太快,它已经跟不上了。 以前AI写10行笔记,Markdown刚刚好, 现在AI能一次性输出1000行计划、复杂流程图、完整代码审查, 密…

X AI KOLs Timeline

Claude团队工程师放弃Markdown转向HTML,因AI输出量已从10行增至1000行,纯文字格式难以处理。HTML可生成彩色表格、SVG流程图、交互式原型等,显著提升人机协作体验,尽管生成时间增加2-4倍。

@quanruzhuoxiu: 经常被问:Midscene 和 Browser-Use 有什么区别? 都是开源,都用视觉,都解决各自该解决的问题。下面是诚实对比,不是踩 Browser-Use。 Browser-Use 是个 web agent,定位是「打开浏览器,把这…

X AI KOLs Timeline

A comparison of Midscene and Browser-Use, two open-source tools with different focuses: Browser-Use is a web agent for one-time tasks, while Midscene is a vision SDK designed for reliable multi-platform repeated execution.