我的CLI现在可以控制整个桌面,有什么好的测试可以验证它是否真正有效?

Reddit r/AI_Agents 工具

摘要

用户描述了一个通过混合使用鼠标、键盘和截图方式控制整个桌面的CLI工具,该工具成功完成了发送电子邮件截图和远程桌面控制等任务。用户希望寻找具有挑战性的测试来验证其稳健性。

因此,我的CLI能够完成所有操作,它通过鼠标控制、键盘和截图的混合方法来控制每个应用。我给了它一个任务:打开Perplexity,发送任意消息,截取该消息的截图,打开我的Gmail,然后将该截图通过电子邮件发送给自己。注意:未使用Playwright。但它可以识别何时使用Playwright。我的意思是,如果网站对验证码敏感,它就不会使用Playwright,而是以看似人类的方式移动鼠标。接下来的任务我本以为更难:我让它通过Chrome远程桌面连接到我的另一台Windows电脑并执行相同的任务,结果成功了。我只想知道:有什么测试能让我真正严格地测试它并确认它工作良好?另外,令人惊讶的是,Opus 4.7在截图分析方面不如GPT-5.5——Opus总是点击错误的按钮。现在它的目的是检查前端并通过点击前端来运行测试,确保其万无一失。那么,有哪些测试可以真的让它难以完成这个任务呢?
查看原文

相似文章

MobileCLI

Product Hunt

MobileCLI 支持从移动设备远程控制 AI 终端。