alibaba/page-agent
摘要
Page Agent 是一个来自阿里巴巴的开源 JavaScript 库,它让您通过自然语言控制网页界面,无需浏览器扩展或无头浏览器。
JavaScript 页内 GUI 代理。使用自然语言控制网页界面。
查看缓存全文
缓存时间: 2026/06/25 11:08
alibaba/page-agent 来源:https://github.com/alibaba/page-agent # Page Agent 许可证:MIT (https://opensource.org/licenses/MIT) TypeScript (http://www.typescriptlang.org/) 包大小 (https://bundlephobia.com/package/page-agent) 下载量 (https://www.npmjs.com/package/page-agent) GitHub 星标 (https://github.com/alibaba/page-agent) 驻留在您网页中的 GUI Agent。用自然语言控制网页界面。 🌐 English | 中文 🚀 演示 | 📖 文档 | 📢 HN 讨论 | 在 X 上关注 https://github.com/user-attachments/assets/a1f2eae2-13fb-4aae-98cf-a3fc1620a6c2 — ## ✨ 特性 - 🎯 轻松集成 - 无需 浏览器扩展 / python / 无头浏览器。 - 仅需页内 JavaScript。一切都在您的网页中发生。 - 📖 基于文本的 DOM 操作 - 无需截图。无需多模态 LLM 或特殊权限。 - 🧠 自备 LLM - 🐙 可选 Chrome 扩展 (https://alibaba.github.io/page-agent/docs/features/chrome-extension) 用于多页任务。 - 以及一个 MCP 服务器(Beta)(https://alibaba.github.io/page-agent/docs/features/mcp-server),可从外部控制它。 ## 💡 使用场景 - SaaS AI 副驾驶 — 用几行代码为您的产品植入 AI 副驾驶。无需重写后端。 - 智能表单填写 — 将 20 次点击的工作流变成一句话。完美适用于 ERP、CRM 和管理系统。 - 无障碍访问 — 通过自然语言使任何网页应用可访问。语音命令、屏幕阅读器、零障碍。 - 多页 Agent — 通过 chrome 扩展 (https://alibaba.github.io/page-agent/docs/features/chrome-extension) 扩展您自己的 Web Agent 在浏览器标签页中的覆盖范围。 - MCP — 让您的 Agent 客户端控制您的浏览器。 ## 🚀 快速开始 ### 一行集成 使用我们的免费演示 LLM 最快尝试 PageAgent: html > ⚠️ 仅用于技术评估。 此演示 CDN 使用我们的免费测试 LLM API (https://alibaba.github.io/page-agent/docs/features/models#free-testing-api)。使用即表示您同意其条款 (https://github.com/alibaba/page-agent/blob/main/docs/terms-and-privacy.md)。 | 镜像 | URL | | —–– | ———————————————————————————– | | 全球 | https://cdn.jsdelivr.net/npm/[email protected]/dist/iife/page-agent.demo.js | | 中国 | https://registry.npmmirror.com/page-agent/1.10.0/files/dist/iife/page-agent.demo.js | 添加 ?autoInit=false 以加载脚本但不自动创建演示 agent。随后您可以使用 new window.PageAgent(...) 实例化。 ### npm 安装 bash npm install page-agent javascript import { PageAgent } from 'page-agent' const agent = new PageAgent({ model: 'qwen3.5-plus', baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1', apiKey: 'YOUR_API_KEY', language: 'en-US', }) await agent.execute('点击登录按钮') 更多编程用法请见 📖 文档 (https://alibaba.github.io/page-agent/docs/introduction/overview)。 ## 🌟 精彩 Page Agent 项目 用 PageAgent 做了什么酷东西?在这里添加!通过 PR 分享您的项目。 > 这些是社区项目——非我们维护或认可。请自行判断使用。 | 项目 | 描述 | | –––– | ———————————————————– | | 你的? | 提交 PR (https://github.com/alibaba/page-agent/pulls) 🙌 | ## 🤝 贡献 我们欢迎社区贡献!请参阅 CONTRIBUTING.md 了解指南,以及 docs/developer-guide.md 了解本地开发工作流程。请阅读维护者说明 (https://github.com/alibaba/page-agent/issues/349) 了解原则和当前状态。 完全由机器人或 AI 生成且没有实质性人工参与的贡献将不被接受。 ## ⚖️ 许可证 MIT 许可证 ## 👏 致谢 本项目基于 browser-use (https://github.com/browser-use/browser-use) 的优秀工作构建。PageAgent 专为客户端网页增强设计,而非服务器端自动化。 DOM 处理组件和提示词源自 browser-use: Browser Use Copyright (c) 2024 Gregor Zunic 根据 MIT 许可证授权 我们衷心感谢 browser-use 项目及其贡献者在网页自动化和 DOM 交互模式方面的出色工作,这些工作帮助实现了本项目。 — ⭐ 如果 PageAgent 对您有帮助,请给这个仓库加星!
相似文章
@axichuhai: 这个阿里的开源项目page-agent,能让你用自然语言控制网页界面,在 GitHub 已经斩获 18.7K star。 它把 AI agent 直接塞进网页里,然后你用自然语言指挥它点按钮、填表单、跳流程都行。 它不需要 headles…
阿里开源项目 Page-Agent 让你通过自然语言直接操控网页界面,无需 headless 浏览器或多模态模型,已在 GitHub 获得 18.7K star。
Panniantong/Agent-Reach
Agent-Reach 是一个开源工具,让 AI agent 能一键访问网页、社交媒体和视频平台,无需复杂配置。
@quant_sheep: 我让 Agent 通过 Chrome 帮我在 Airbnb 上找住处并完成预约了 它甚至还主动帮我咨询房东:有没有厨房 如果你需要让自己的 Agent 像人一样操作浏览器,不管是测试网页,还是自动预订 Airbnb 住宿,涉及网页的操作都…
展示了一个名为 open-browser-use 的开源工具,能让 AI Agent 像人一样操作 Chrome 浏览器,完成在 Airbnb 上查找住处并预约的全流程,包括主动咨询房东。
@lightpanda_io: 介绍:Lightpanda Agent + PandaScript 四年前我们说浏览器自动化已崩,要重写整个...
Lightpanda Agent 和 PandaScript 通过在构建阶段使用 LLM 将普通英语转化为可执行脚本,实现了浏览器自动化,消除了运行时调用 LLM 以及对 Playwright 或 Puppeteer 的依赖。
BrowserAct
BrowserAct是一款为AI代理设计的网页浏览器自动化工具,可实现自动化的网页交互。