我的CLI现在可以控制整个桌面,有什么好的测试可以验证它是否真正有效?
摘要
用户描述了一个通过混合使用鼠标、键盘和截图方式控制整个桌面的CLI工具,该工具成功完成了发送电子邮件截图和远程桌面控制等任务。用户希望寻找具有挑战性的测试来验证其稳健性。
因此,我的CLI能够完成所有操作,它通过鼠标控制、键盘和截图的混合方法来控制每个应用。我给了它一个任务:打开Perplexity,发送任意消息,截取该消息的截图,打开我的Gmail,然后将该截图通过电子邮件发送给自己。注意:未使用Playwright。但它可以识别何时使用Playwright。我的意思是,如果网站对验证码敏感,它就不会使用Playwright,而是以看似人类的方式移动鼠标。接下来的任务我本以为更难:我让它通过Chrome远程桌面连接到我的另一台Windows电脑并执行相同的任务,结果成功了。我只想知道:有什么测试能让我真正严格地测试它并确认它工作良好?另外,令人惊讶的是,Opus 4.7在截图分析方面不如GPT-5.5——Opus总是点击错误的按钮。现在它的目的是检查前端并通过点击前端来运行测试,确保其万无一失。那么,有哪些测试可以真的让它难以完成这个任务呢?
相似文章
MobileCLI
MobileCLI 支持从移动设备远程控制 AI 终端。
@MiguelMaestroIA: 中国再次发力!开源了一款能查看屏幕的桌面Agent,完全本地运行 Screen/mouse/keybo…
中国开源了一款桌面AI Agent,能够通过自然语言查看屏幕并控制鼠标/键盘,完全本地运行,无需依赖云端。
我们将 Cursor.ai 改造成了类 OpenClaw 风格的多智能体控制面板
开发者在 Cursor CLI 之上构建了一个开源 Web UI,将其转变为多智能体控制面板,允许用户通过浏览器操控界面运行多个 Cursor 智能体会话,支持独立工作区、任务调度以及 MCP 配置管理。
Codex Computer Use 相比 Openclaw 具有巨大优势!!!
文章比较了 Codex Computer Use 和 Openclaw,前者可以通过图形界面控制计算机,移动光标并点击,而后者仅限于终端操作,突出了前者的关键优势,并提出了可能的集成方案。
🤔 如何在AI工作流中保障本地桌面自动化安全?(评测与Beta测试)
MountainDesk是一款本地优先的工具,它连接了AI模型推理与桌面自动化,提供系统状态锚点、多智能体编排和后台监控等功能。创建者希望获得关于安全性和工作流整合的反馈。