[browser-use-wasm] 我制作了一个在WASM中运行的零成本浏览器使用代理
摘要
一位开发者构建了一个完全自包含的浏览器使用代理,完全在WASM/WebGPU中运行,零服务器成本,通过自然语言提示实现完整的网页控制。
唯一的花费就是电费!我花了几个星期做了这个,因为找不到类似的东西。演示:[https://pdufour.github.io/browser-use-wasm/](https://pdufour.github.io/browser-use-wasm/) 源代码:[https://github.com/pdufour/browser-use-wasm](https://github.com/pdufour/browser-use-wasm) 我一直想做的一件事就是给我的页面添加一个小部件,让我可以像任何浏览器使用代理一样控制整个网页。关键区别在于我希望它是完全自包含的,不涉及服务器。经过几周的摸索,我有了一个相当不错的浏览器使用模型,完全通过Snapdom / WASM / WebGPU / Wllama / ShowUi-2b以及一些JS将它们整合在一起运行。**我开发的浏览器使用库可以处理所有这些:** * 在字段中输入 * 点击链接 * 多步操作(点击输入框,输入内容,点击提交按钮) - 全部来自一个提示 - 大约50%的情况下有效 * 更改下拉选项 **我学到的一些经验教训,可能对他人有所帮助:** 1. 测试是你的朋友,找到mind2web [https://github.com/OSU-NLP-Group/Mind2Web](https://github.com/OSU-NLP-Group/Mind2Web) 和MiniWob [https://github.com/Farama-Foundation/miniwob-plusplus](https://github.com/Farama-Foundation/miniwob-plusplus) 帮助我不断提高浏览器使用动作的准确性 2. 浏览器使用非常非常困难。我只支持有限的动作集,即使达到这一点也相当困难。要处理复杂的查询,你需要某种交互循环,但随后会遇到诸如确定何时结束循环等问题。 3. 准确性很重要。很长一段时间,我的点击动作会偏移几个像素,最终我追踪到问题出在snapdom库上。当点击偏移几个像素时,可能意味着点击在空白区域而不是按钮上。我很高兴这个问题已修复 - [https://github.com/zumerlab/snapdom/issues/421](https://github.com/zumerlab/snapdom/issues/421)。这段代码超级超级alpha,很多东西可能都有问题,但我想在Reddit上分享以征求反馈,看看大家有没有什么进一步开发的想法。我欢迎任何想法!
相似文章
介绍 B,一个浏览器代理模板!基于 @vercel 的 Eve 构建。为任何智能体提供真正的 Browser Use Cloud 浏览器。查看…
介绍 B,一个开源的浏览器代理模板,基于 Vercel 的 Eve 构建,利用 Browser Use Cloud 为任何 AI 智能体提供真正的网页浏览器。它包含聊天界面和实时浏览器查看功能。
“浏览器代理成本高昂且仍在成熟”这种表述可能忽略了架构方面的问题
讨论了当前使用无头Chrome加AI层的浏览器代理的架构问题,并介绍了Opera Neon的命令行界面作为替代方案,将AI集成到浏览器中,从而降低令牌开销并提高理解能力。
@browser_use:观看一个代理同时控制4个浏览器。我们正在测试一个新的云浏览器界面……browser-wall 是云计算浏览器的中心枢纽…
browser-wall 是一个新的云浏览器界面,允许通过单一的 CDP URL 同时控制多个浏览器,并支持配置文件和代理。
@svpino: 我还没见过在浏览器中运行的智能体不让人觉得是取巧之作。我试过无头浏览器,但无法…
Santiago (@svpino) 讨论了在浏览器中运行AI智能体的挑战,而 @ego_agent 宣布了 'ego lite',一个内核级重建,旨在让AI智能体更快、更可靠。
@browser_use:将代理作为可靠 API 托管的指南
如何使用 browser-use 框架将 AI 代理托管为可靠的 API 的指南。