gui-automation

标签

Cards List
#gui-automation

MIRAGE:具备隐式推理与生成式世界模型的移动智能体

arXiv cs.AI · 3天前 缓存

MIRAGE 是一个面向移动端 GUI 智能体的框架,它以紧凑的连续潜在表示取代冗长的思维链推理,并融入生成式世界模型视角,在执行操作前预测未来的屏幕状态。在 AndroidWorld 和 AndroidControl 基准测试中,该框架在减少超过 75% 生成 token 的同时,实现了具有竞争力或更优的性能表现。

0 人收藏 0 人点赞
#gui-automation

PRO-CUA:面向计算机使用代理的过程奖励优化

arXiv cs.AI · 2026-05-29 缓存

本文介绍了PRO-CUA,一种使用迭代步骤级强化学习训练计算机使用代理(CUA)的过程奖励优化框架。该方法将同策略环境交互与策略优化解耦,实现了密集的信用分配,无需依赖专家轨迹,并在实时网络基准测试中展示了有效性。

0 人收藏 0 人点赞
#gui-automation

AutoRPA:通过LLM驱动的交互代码合成实现高效GUI自动化

arXiv cs.AI · 2026-05-22 缓存

AutoRPA是一个框架,能够自动将ReAct风格LLM代理的决策逻辑提炼为鲁棒且token高效的RPA函数,用于重复的GUI任务,将token使用量减少82%-96%。

0 人收藏 0 人点赞
#gui-automation

AI代理应使用真实应用。

Reddit r/openclaw · 2026-05-21

OpenGUI是一种工具,允许AI代理通过读取屏幕和自然交互直接操作真实Android应用,而非依赖API或脚本。

0 人收藏 0 人点赞
#gui-automation

你让本地模型自主完成了哪些非编程任务?

Reddit r/LocalLLaMA · 2026-05-19

作者讨论了构建一个小型VLM用于桌面GUI自动化,以在没有API的应用之间移动数据,并表达了对于本地模型在非编程自主用例方面的兴趣。

0 人收藏 0 人点赞
#gui-automation

ToolCUA:迈向计算机使用代理的 GUI-工具路径编排优化

Hugging Face Daily Papers · 2026-05-12 缓存

ToolCUA 是一个全新的代理框架,通过分阶段训练和强化学习,优化计算机使用代理的 GUI-工具路径选择。它通过在 GUI 操作和高级工具调用之间进行有效交替,在 OSWorld-MCP 上达到了最先进的性能。

0 人收藏 0 人点赞
#gui-automation

@berryxia: 兄弟们! 不要重复造轮子,直接拿这个31.4K Star的开源来干吧! 字节跳动把 UI-TARS-desktop 开源了,看了一眼,这个项目已经上线快一年了! 目前 Star 数已经来到 31.4k,而且增长速度还挺稳。 24 小时增长…

X AI KOLs Timeline · 2026-05-10 缓存

ByteDance open-sourced UI-TARS-desktop, a native desktop GUI agent with 31.4k GitHub stars that uses vision models to control local or remote applications via natural language. The tool runs locally for privacy, supports Windows and macOS, and includes a CLI with streaming output for developers.

0 人收藏 0 人点赞
#gui-automation

Agent S2:一种面向计算机使用智能体的组合式通才-专才框架

Papers with Code Trending · 2025-04-01 缓存

Agent S2 是一种新型的计算机使用智能体组合式框架,通过采用混合定位(Mixture-of-Grounding)与主动分层规划(Proactive Hierarchical Planning)技术,在多个基准测试中达到了最先进的性能。

0 人收藏 0 人点赞
#gui-automation

计算机使用代理

OpenAI Blog · 2025-01-23 缓存

# 计算机使用代理 来源: [https://openai.com/index/computer-using-agent/](https://openai.com/index/computer-using-agent/) 通过计算机使用代理(Computer-Using Agent)为Operator提供支持,这是AI与数字世界交互的通用接口。今天我们推出了[Operator⁠\(在新窗口中打开\)](https://operator.chatgpt.com/)的研究预览版,这是一个能够在网络上为你执行任务的代理。Operator由计算机使用代理(CUA)驱动,这是一个结合了GPT-4o视觉功能的模型

0 人收藏 0 人点赞
← 返回首页

提交意见反馈