我构建了 agent-browser,但用于操作系统自动化。
摘要
作者介绍了 agent-ctrl,这是一个基于 Rust 的开源 CLI 工具,允许 AI 代理通过辅助功能树与原生应用程序 UI 进行交互,从而实现操作系统自动化。
大家好,r/AI_Agents 的朋友们!我之前使用 agent-browser 来驱动我的代理工作流,效果非常好。当我希望将计算机使用扩展到操作系统本身时,我发现找不到足够好的开源工具,于是决定自己构建一个。**agent-ctrl 是什么?** agent-ctrl 是一个专为 AI 代理设计的操作系统自动化 CLI,使用 Rust 编写以确保速度。**它是如何工作的?** agent-ctrl 将原生应用程序 UI 转换为代理可读的格式,然后让你或你的代理对 UI 进行操作。它将来自任何操作系统的辅助功能树展平并解析为一种统一的 schema,从而支持跨操作系统的代理。目前它支持 Windows,我目前正在开发 MacOS 和 Linux 的支持。我正在寻找愿意为 Linux 部分做出贡献的人,因为我自己不使用 Linux。
相似文章
我们将 Cursor.ai 改造成了类 OpenClaw 风格的多智能体控制面板
开发者在 Cursor CLI 之上构建了一个开源 Web UI,将其转变为多智能体控制面板,允许用户通过浏览器操控界面运行多个 Cursor 智能体会话,支持独立工作区、任务调度以及 MCP 配置管理。
@DeRonin_: 你明白 Browserbase 刚刚开源了什么吗???一个只需学习一次任何网站,就能以十分之一成本永久完成任务的智能体……
Browserbase 开源了 Autobrowse,这是一个智能网页浏览工具,通过迭代探索学习网站结构,并将发现的模式保存为可复用的 Markdown 技能文件,大幅减少重复网页自动化任务的时间和成本。
bytedance/UI-TARS-desktop
ByteDance 发布了 TARS,这是一个多模态 AI 智能体技术栈,包含 Agent TARS(基于 CLI/Web UI 的通用 AI 智能体,支持 GUI、浏览器和终端任务)和 UI-TARS Desktop(由 UI-TARS 模型驱动的原生桌面应用,用于本地和远程计算机/浏览器自动化)。该技术栈将多模态 LLM 与 MCP 工具相结合,实现类人任务处理能力。
给 AI 配备真机比另一个浏览器代理更有趣
OpenGUI 被突出展示为一个新颖的 AI 代理平台,它利用实际的 Android 设备执行任务,相较于传统的基于浏览器的代理,提供了更真实的界面。
@ctatedev: agent-browser v0.27 代理和浏览器的重大时刻 → React 自省:react tree、react inspect、react renders、re…
agent-browser v0.27 发布,新增 React 自省功能、Web Vitals 报告、SPA 导航支持、初始化脚本、网络过滤和 cURL Cookie 导入。