alibaba/page-agent

GitHub Trending (daily) 工具

摘要

Page Agent 是一个来自阿里巴巴的开源 JavaScript 库,它让您通过自然语言控制网页界面,无需浏览器扩展或无头浏览器。

JavaScript 页内 GUI 代理。使用自然语言控制网页界面。
查看原文
查看缓存全文

缓存时间: 2026/06/25 11:08

alibaba/page-agent 来源:https://github.com/alibaba/page-agent # Page Agent 许可证:MIT (https://opensource.org/licenses/MIT) TypeScript (http://www.typescriptlang.org/) 包大小 (https://bundlephobia.com/package/page-agent) 下载量 (https://www.npmjs.com/package/page-agent) GitHub 星标 (https://github.com/alibaba/page-agent) 驻留在您网页中的 GUI Agent。用自然语言控制网页界面。 🌐 English | 中文 🚀 演示 | 📖 文档 | 📢 HN 讨论 | 在 X 上关注 https://github.com/user-attachments/assets/a1f2eae2-13fb-4aae-98cf-a3fc1620a6c2 — ## ✨ 特性 - 🎯 轻松集成 - 无需 浏览器扩展 / python / 无头浏览器。 - 仅需页内 JavaScript。一切都在您的网页中发生。 - 📖 基于文本的 DOM 操作 - 无需截图。无需多模态 LLM 或特殊权限。 - 🧠 自备 LLM - 🐙 可选 Chrome 扩展 (https://alibaba.github.io/page-agent/docs/features/chrome-extension) 用于多页任务。 - 以及一个 MCP 服务器(Beta)(https://alibaba.github.io/page-agent/docs/features/mcp-server),可从外部控制它。 ## 💡 使用场景 - SaaS AI 副驾驶 — 用几行代码为您的产品植入 AI 副驾驶。无需重写后端。 - 智能表单填写 — 将 20 次点击的工作流变成一句话。完美适用于 ERP、CRM 和管理系统。 - 无障碍访问 — 通过自然语言使任何网页应用可访问。语音命令、屏幕阅读器、零障碍。 - 多页 Agent — 通过 chrome 扩展 (https://alibaba.github.io/page-agent/docs/features/chrome-extension) 扩展您自己的 Web Agent 在浏览器标签页中的覆盖范围。 - MCP — 让您的 Agent 客户端控制您的浏览器。 ## 🚀 快速开始 ### 一行集成 使用我们的免费演示 LLM 最快尝试 PageAgent: html > ⚠️ 仅用于技术评估。 此演示 CDN 使用我们的免费测试 LLM API (https://alibaba.github.io/page-agent/docs/features/models#free-testing-api)。使用即表示您同意其条款 (https://github.com/alibaba/page-agent/blob/main/docs/terms-and-privacy.md)。 | 镜像 | URL | | —–– | ———————————————————————————– | | 全球 | https://cdn.jsdelivr.net/npm/[email protected]/dist/iife/page-agent.demo.js | | 中国 | https://registry.npmmirror.com/page-agent/1.10.0/files/dist/iife/page-agent.demo.js | 添加 ?autoInit=false 以加载脚本但不自动创建演示 agent。随后您可以使用 new window.PageAgent(...) 实例化。 ### npm 安装 bash npm install page-agent javascript import { PageAgent } from 'page-agent' const agent = new PageAgent({ model: 'qwen3.5-plus', baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1', apiKey: 'YOUR_API_KEY', language: 'en-US', }) await agent.execute('点击登录按钮') 更多编程用法请见 📖 文档 (https://alibaba.github.io/page-agent/docs/introduction/overview)。 ## 🌟 精彩 Page Agent 项目 用 PageAgent 做了什么酷东西?在这里添加!通过 PR 分享您的项目。 > 这些是社区项目——非我们维护或认可。请自行判断使用。 | 项目 | 描述 | | –––– | ———————————————————– | | 你的? | 提交 PR (https://github.com/alibaba/page-agent/pulls) 🙌 | ## 🤝 贡献 我们欢迎社区贡献!请参阅 CONTRIBUTING.md 了解指南,以及 docs/developer-guide.md 了解本地开发工作流程。请阅读维护者说明 (https://github.com/alibaba/page-agent/issues/349) 了解原则和当前状态。 完全由机器人或 AI 生成且没有实质性人工参与的贡献将不被接受。 ## ⚖️ 许可证 MIT 许可证 ## 👏 致谢 本项目基于 browser-use (https://github.com/browser-use/browser-use) 的优秀工作构建。PageAgent 专为客户端网页增强设计,而非服务器端自动化。 DOM 处理组件和提示词源自 browser-use: Browser Use Copyright (c) 2024 Gregor Zunic 根据 MIT 许可证授权 我们衷心感谢 browser-use 项目及其贡献者在网页自动化和 DOM 交互模式方面的出色工作,这些工作帮助实现了本项目。⭐ 如果 PageAgent 对您有帮助,请给这个仓库加星!

相似文章

Panniantong/Agent-Reach

GitHub Trending (daily)

Agent-Reach 是一个开源工具,让 AI agent 能一键访问网页、社交媒体和视频平台,无需复杂配置。

@quant_sheep: 我让 Agent 通过 Chrome 帮我在 Airbnb 上找住处并完成预约了 它甚至还主动帮我咨询房东:有没有厨房 如果你需要让自己的 Agent 像人一样操作浏览器,不管是测试网页,还是自动预订 Airbnb 住宿,涉及网页的操作都…

X AI KOLs Timeline

展示了一个名为 open-browser-use 的开源工具,能让 AI Agent 像人一样操作 Chrome 浏览器,完成在 Airbnb 上查找住处并预约的全流程,包括主动咨询房东。

BrowserAct

Product Hunt

BrowserAct是一款为AI代理设计的网页浏览器自动化工具,可实现自动化的网页交互。