WebHarbor - 我们将真实网站“对接”到本地,供网页代理使用![R]
摘要
WebHarbor 将 15 个真实网站(Amazon、GitHub、BBC 等)打包为自包含的 Flask+SQLite 应用,置于单个 Docker 镜像中,支持亚秒级重置,专为可重复的网页智能体评估与训练而设计。该项目邀请社区贡献,以扩展到 100 多个网站,并提供合著机会。
大家好!很兴奋分享我们最新的社区驱动研究项目:[**WebHarbor:为不断演化的 GUI 智能体环境对接真实网站**](https://aiming-lab.github.io/webharbor.github.io)!
**太长不看**:15 个流行网站(Amazon、GitHub、BBC News、arXiv、Booking、Hugging Face 等)被打包成自包含的 Flask + SQLite 应用,置于单个 Docker 镜像中,通过控制平面可在 <1 秒内将每个网站重置为字节相同的状态,整个过程由人类参与循环的编码智能体(如 Claude Code 或 CodeX)完成。我们开箱即支持所有 643 个 WebVoyager 任务。
**贡献号召**:我们的下一个目标是 100+ 个流行网站——涵盖所有 Online-Mind2Web(147 个网站)并超越。两条路径:
* 贡献一个新的镜像站点(使用编码智能体流水线 → 人工验证 → 开放 PR)→ 成为最终论文的合著者
* 评审提交的 PR(5 次评审 → 合著者)
我们还发布了有用的技能供你(你的编码智能体)使用!通常你可以在一天内创建一个新的镜像!更多贡献详情请参见[贡献指南](https://aiming-lab.github.io/webharbor.github.io/#contribute)。
**为什么需要 WebHarbor:** 在真实网络上运行网页智能体基准测试是一场噩梦——reCAPTCHA、地域封锁、内容漂移、网络不稳定,以及几个月内就过时的任务。而且你无法重置真实网络,这排除了大规模强化学习训练的可能性。**你需要一个轻量、易重置、任务驱动的演化环境来支持网页智能体的评估与训练!**
**相关资源:**
| 名称 | 链接 |
|:-|:-|
|🏠 WebHarbor 项目页面|[WebHarbor](https://aiming-lab.github.io/webharbor.github.io/)|
|🤗 HuggingFace 数据集|[ChilleD/WebHarbor](https://huggingface.co/datasets/ChilleD/WebHarbor)|
|💻 WebHarbor GitHub|[代码仓库](https://github.com/aiming-lab/WebHarbor)|
|📊 贡献指南|[指南详情](https://aiming-lab.github.io/webharbor.github.io/#contribute)|
|📝 贡献申请表|[Google 表单](https://forms.gle/ngcD1rzAfUEphNmRA)|
欢迎提出建议和讨论!
相似文章
Harbor
Harbor是一个CLI和配套工具,用于快速搭建完整的本地LLM堆栈。
Weblica:用于视觉 Web 智能体的可扩展且可复现的训练环境
Apple Research 推出了 Weblica,这是一个利用 HTTP 缓存和基于大语言模型(LLM)的合成技术,为视觉 Web 智能体创建可扩展且可复现训练环境的框架。
@LangChain:.@harborframework 现在可以直接与 Deep Agents、LangSmith Sandboxes 和 LangSmith Observability 集成。你 ne…
Harbor Framework 现在集成了 LangChain 的 Deep Agents、LangSmith Sandboxes 和 Observability,能够在隔离、可复现的环境中运行智能体,进行确定性测试。
完全在浏览器中的容器构建
一个完全在浏览器中使用客户端代码构建容器的Web应用程序,展示了自定义容器工具的强大功能。用户可以选择基础镜像、运行Shell脚本,并将生成的镜像导出为tar文件。
自托管的开发沙箱与预览URL(Docker、Go、无K8s)
sandboxed 是一个开源引擎,能将单个 Linux 机器转变为一系列隔离的开发沙箱,配备编码代理和实时预览 URL,支持自托管且易于安装。