我构建了 agent-browser,但用于操作系统自动化。

Reddit r/AI_Agents 工具

摘要

作者介绍了 agent-ctrl,这是一个基于 Rust 的开源 CLI 工具,允许 AI 代理通过辅助功能树与原生应用程序 UI 进行交互,从而实现操作系统自动化。

大家好,r/AI_Agents 的朋友们!我之前使用 agent-browser 来驱动我的代理工作流,效果非常好。当我希望将计算机使用扩展到操作系统本身时,我发现找不到足够好的开源工具,于是决定自己构建一个。**agent-ctrl 是什么?** agent-ctrl 是一个专为 AI 代理设计的操作系统自动化 CLI,使用 Rust 编写以确保速度。**它是如何工作的?** agent-ctrl 将原生应用程序 UI 转换为代理可读的格式,然后让你或你的代理对 UI 进行操作。它将来自任何操作系统的辅助功能树展平并解析为一种统一的 schema,从而支持跨操作系统的代理。目前它支持 Windows,我目前正在开发 MacOS 和 Linux 的支持。我正在寻找愿意为 Linux 部分做出贡献的人,因为我自己不使用 Linux。
查看原文

相似文章

bytedance/UI-TARS-desktop

GitHub Trending (daily)

ByteDance 发布了 TARS,这是一个多模态 AI 智能体技术栈,包含 Agent TARS(基于 CLI/Web UI 的通用 AI 智能体,支持 GUI、浏览器和终端任务)和 UI-TARS Desktop(由 UI-TARS 模型驱动的原生桌面应用,用于本地和远程计算机/浏览器自动化)。该技术栈将多模态 LLM 与 MCP 工具相结合,实现类人任务处理能力。