我给 AI 代理在我的电脑上装上了“眼睛”
摘要
作者介绍了 Pupil,这是一款开源工具,使 AI 代理能够视觉检查 PC 用户界面并识别点击目标,而无需依赖截图。
我构建了 Pupil,这是一款开源工具。解决的痛点是:以往为了询问 AI 工具该点击哪里,往往需要发送大量截图。现在,代理可以直接检查 UI,指出目标位置,并等待批准。欢迎提供反馈。
相似文章
给 AI 配备真机比另一个浏览器代理更有趣
OpenGUI 被突出展示为一个新颖的 AI 代理平台,它利用实际的 Android 设备执行任务,相较于传统的基于浏览器的代理,提供了更真实的界面。
智能体-计算机观察接口实现动态计算机使用
本文介绍了智能体-计算机观察接口(AOI),这是一种模型无关的感知层,它将计算机使用智能体的连续自适应观察与离散动作解耦。AOI 在动态浏览器任务上实现了显著的性能提升(+17 到 +48 个百分点),且无需重新训练,关键洞察在于将捕获的帧叙述为持久文本是改进的主要驱动因素。
AI代理应使用真实应用。
OpenGUI是一种工具,允许AI代理通过读取屏幕和自然交互直接操作真实Android应用,而非依赖API或脚本。
我构建了一个自我改进的GUI代理,它能从自己的错误中学习——开源(MIT协议)
一个自我改进的GUI代理,能从错误中学习,使用基于YOLO和OCR的感知堆栈,仅在需要时调用LLM,并在本地运行。它基于MIT协议开源。
@heyrimsha: 我刚刚找到了最接近笔记本电脑“AI 员工”的东西。UI-TARS 让你给电脑下达任务,然后 AI 就……
UI-TARS 是一个 AI 智能体,能够控制笔记本电脑屏幕来执行点击、打字和浏览等操作,实际上充当了设备本地的 AI 员工。