WebHarbor - 我们将真实网站“对接”到本地,供网页代理使用![R]
摘要
WebHarbor 将 15 个真实网站(Amazon、GitHub、BBC 等)打包为自包含的 Flask+SQLite 应用,置于单个 Docker 镜像中,支持亚秒级重置,专为可重复的网页智能体评估与训练而设计。该项目邀请社区贡献,以扩展到 100 多个网站,并提供合著机会。
大家好!很兴奋分享我们最新的社区驱动研究项目:[**WebHarbor:为不断演化的 GUI 智能体环境对接真实网站**](https://aiming-lab.github.io/webharbor.github.io)!
**太长不看**:15 个流行网站(Amazon、GitHub、BBC News、arXiv、Booking、Hugging Face 等)被打包成自包含的 Flask + SQLite 应用,置于单个 Docker 镜像中,通过控制平面可在 <1 秒内将每个网站重置为字节相同的状态,整个过程由人类参与循环的编码智能体(如 Claude Code 或 CodeX)完成。我们开箱即支持所有 643 个 WebVoyager 任务。
**贡献号召**:我们的下一个目标是 100+ 个流行网站——涵盖所有 Online-Mind2Web(147 个网站)并超越。两条路径:
* 贡献一个新的镜像站点(使用编码智能体流水线 → 人工验证 → 开放 PR)→ 成为最终论文的合著者
* 评审提交的 PR(5 次评审 → 合著者)
我们还发布了有用的技能供你(你的编码智能体)使用!通常你可以在一天内创建一个新的镜像!更多贡献详情请参见[贡献指南](https://aiming-lab.github.io/webharbor.github.io/#contribute)。
**为什么需要 WebHarbor:** 在真实网络上运行网页智能体基准测试是一场噩梦——reCAPTCHA、地域封锁、内容漂移、网络不稳定,以及几个月内就过时的任务。而且你无法重置真实网络,这排除了大规模强化学习训练的可能性。**你需要一个轻量、易重置、任务驱动的演化环境来支持网页智能体的评估与训练!**
**相关资源:**
| 名称 | 链接 |
|:-|:-|
|🏠 WebHarbor 项目页面|[WebHarbor](https://aiming-lab.github.io/webharbor.github.io/)|
|🤗 HuggingFace 数据集|[ChilleD/WebHarbor](https://huggingface.co/datasets/ChilleD/WebHarbor)|
|💻 WebHarbor GitHub|[代码仓库](https://github.com/aiming-lab/WebHarbor)|
|📊 贡献指南|[指南详情](https://aiming-lab.github.io/webharbor.github.io/#contribute)|
|📝 贡献申请表|[Google 表单](https://forms.gle/ngcD1rzAfUEphNmRA)|
欢迎提出建议和讨论!
相似文章
Weblica:用于视觉 Web 智能体的可扩展且可复现的训练环境
Apple Research 推出了 Weblica,这是一个利用 HTTP 缓存和基于大语言模型(LLM)的合成技术,为视觉 Web 智能体创建可扩展且可复现训练环境的框架。
Ask HN: 你正在做什么项目?(2026 年 5 月)
这是一个 Hacker News 社区讨论串,开发者在此分享他们当前的项目,包括名为 Clipper 的 Docker 镜像优化工具、名为 RVW 的持续学习 Transformer 变体、名为 Rankr 的排名应用,以及名为 Webhound 的 AI 深度研究工具。
有人构建了一个智能体,可以在沙盒中尝试任何 GitHub 仓库并录制过程。
这是一个周末项目,利用 AI 智能体在沙盒环境中测试任意 GitHub 仓库,并将会话录制成视频,以帮助用户评估代码质量。
Show HN: Broccoli,一键云端编码代理
Broccoli 是一款开源云端代理,可将 Linear 工单自动转为 GitHub PR,基于 Claude 与 Codex,30 分钟左右即可部署到 Google Cloud。
@larsencc: https://x.com/larsencc/status/2053862900289470765
本文详解了开源 browser-use 库的生产架构,阐述了如何利用 AWS Lambda、SQS 和 S3 扩展浏览器代理,实现状态管理与重试机制。