标签
字节跳动开源 UI-TARS Desktop,一款100%本地运行、仅基于像素操作且不调用API的桌面自动化工具,解决数据隐私和API费用两大痛点,为构建私密自动化工作流提供了高效开源方案。
微软推出 Fara-7B,一款仅 7B 参数的高效 Computer Use Agent,在网页任务上超越更大模型,支持纯本地部署,低成本实现桌面自动化。
ProCUA-SFT 是一个大规模合成数据集,包含 310 万个步骤级别的 SFT 样本,用于训练计算机使用代理。该数据集通过使用单一 VLM(Kimi-K2.5)的自动化流程生成。在其上微调 UI-TARS 7B 在 OSWorld 上达到 45.0%,比基础模型提高了 18.7 个百分点。
微软发布了Fara-7B,一个7B参数的小型语言模型,专攻纯本地桌面自动化,能直接接管鼠标键盘执行重复流程,成本低且无需联网。
Minicor 是一个由 Y Combinator 支持的平台,部署自愈 AI 代理以实现可扩展的桌面自动化,能够与缺乏 API 的遗留系统集成。
Midscene的Computer Agent让桌面UI自动化可以在Linux CI中无头运行,通过xvfb-run自动化,无需真机或VM,支持Electron、Qt、GTK应用。
Atomic-Agent 是一个为 llama.cpp 本地推理模型设计的桌面操作 Agent,通过优化运行时架构让小型本地模型可靠地执行多步骤桌面任务。
IrisGo在吴恩达支持下推出了一款AI桌面助手,它能学习用户工作流程,在设备本地自动化执行重复任务以保护隐私,面向知识工作者。
作者讨论了构建一个小型VLM用于桌面GUI自动化,以在没有API的应用之间移动数据,并表达了对于本地模型在非编程自主用例方面的兴趣。
OpenComputer 提出了一种框架,用于为计算机使用智能体创建可验证的软件环境,集成了状态验证器、自改进验证层、任务合成以及评估系统,覆盖33个桌面应用程序。实验表明,其验证器与人类判断的一致性优于LLM作为判断者,且前沿智能体在端到端完成方面仍面临困难。
OpenAI 正在为 Codex 开发一项功能,使其能够通过 Computer Use 控制 macOS 应用程序,即使在笔记本电脑锁定或休眠时也能操作,并远程控制运行 Codex 应用的其他桌面设备,从而扩展其远程控制能力。
用户描述了一个通过混合使用鼠标、键盘和截图方式控制整个桌面的CLI工具,该工具成功完成了发送电子邮件截图和远程桌面控制等任务。用户希望寻找具有挑战性的测试来验证其稳健性。
MountainDesk是一款本地优先的工具,它连接了AI模型推理与桌面自动化,提供系统状态锚点、多智能体编排和后台监控等功能。创建者希望获得关于安全性和工作流整合的反馈。
Teknium 推出了一项「Computer Use」早期预览功能,该功能内置于 Hermes Agent 中,并由 TryCua 提供动力,允许任何 AI 模型在后台与桌面环境交互并对其进行控制,且不会覆盖用户的直接输入。
将 Hermes Agent 与 AionUI 结合,可将个人电脑升级为支持多智能体并行、具备长期记忆与自我进化能力的 Agentic AI 操作系统,实现从数据分析、文件管理到代码编写的全自动化本地工作流。
本文介绍了 Opendesk,这是一个开源工具,通过利用原生辅助功能 API 识别交互元素,取代了容易出错的像素坐标猜测,从而提高了计算机操作智能体的可靠性。
字节跳动开源的桌面 AI 自动化工具 UI-TARS Desktop 支持本地运行与屏幕视觉理解,可通过自然语言指令自主操控电脑完成日常任务。
UI-TARS-desktop is a highly popular open-source tool by ByteDance that enables 100% local multimodal desktop automation, allowing users to control apps and browsers via natural language without cloud data leaks.
中国开源了一款桌面AI Agent,能够通过自然语言查看屏幕并控制鼠标/键盘,完全本地运行,无需依赖云端。
Roundtable Space 是一个完全本地、开源的桌面自动化代理,它使用自然语言来跨应用控制屏幕、鼠标和键盘,迅速积累了超过2.9万个 GitHub 星标。