UI-KOBE:面向知识的轻量级图引导GUI代理行为探索
摘要
UI-KOBE 提出了一种框架,通过构建和利用特定应用的知识图谱来增强轻量级移动GUI代理,从而提高任务规划和执行效率。
查看缓存全文
缓存时间: 2026/05/29 02:59
论文页面 - UI-KOBE:面向轻量级图引导GUI智能体的知识导向行为探索
来源:https://huggingface.co/papers/2605.29534
摘要
UI-KOBE框架通过整合可复用的应用特定图知识来增强轻量级移动GUI智能体,提升任务规划与执行效率。
近年来,移动GUI智能体(https://huggingface.co/papers?q=mobile%20GUI%20agents)在自动化移动任务方面展现出巨大潜力,但大多数有效系统仍依赖大型视觉语言模型(https://huggingface.co/papers?q=vision-language%20models)进行截图理解与长程规划。可直接部署在移动设备上的小型GUI智能体在实际应用中更具吸引力,其推理成本更低,且能更好地保护设备上的敏感信息。然而,受限于模型容量,这类轻量级智能体在仅凭截图端到端规划与执行GUI任务时仍不可靠。我们提出面向知识导向的行为探索(UI-KOBE)框架,通过可复用的应用特定图知识来改进轻量级移动GUI智能体(https://huggingface.co/papers?q=mobile%20GUI%20agents)。UI-KOBE首先自主探索移动应用并构建应用知识图谱(https://huggingface.co/papers?q=app%20knowledge%20graph),其中节点代表不同的UI状态(https://huggingface.co/papers?q=UI%20states),边代表可执行的转换(https://huggingface.co/papers?q=executable%20transitions)。运行时,轻量级GUI智能体将图作为外部引导:给定用户任务和当前截图,它识别当前图节点,并在该节点相关的自循环动作(https://huggingface.co/papers?q=self-loop%20actions)、相邻转换(https://huggingface.co/papers?q=neighboring%20transitions)、任务完成(https://huggingface.co/papers?q=task%20completion)或回退自由动作(https://huggingface.co/papers?q=fallback%20free%20actions)中进行选择。通过以应用特定图引导来支持运行时决策(https://huggingface.co/papers?q=runtime%20decisions),UI-KOBE减轻了端到端GUI规划(https://huggingface.co/papers?q=end-to-end%20GUI%20planning)的负担,帮助轻量级模型更有效地执行移动GUI任务,为构建高效、可解释且注重隐私的设备端GUI智能体迈出了务实的一步。
查看arXiv页面(https://arxiv.org/abs/2605.29534)查看PDF(https://arxiv.org/pdf/2605.29534)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.29534)
在你的智能体中获取此论文:
hf papers read 2605.29534
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2605.29534以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2605.29534以从此页面链接。
引用此论文的Spaces0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2605.29534以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
@Saboo_Shubham_: https://x.com/Saboo_Shubham_/status/2062220865643982875
本文解释了生成式 UI 的三种模式(受控式、声明式、开放式)以及 CopilotKit 如何通过 AG-UI 协议实现这些模式,用于构建动态的代理驱动界面。
ToolCUA:迈向计算机使用代理的 GUI-工具路径编排优化
ToolCUA 是一个全新的代理框架,通过分阶段训练和强化学习,优化计算机使用代理的 GUI-工具路径选择。它通过在 GUI 操作和高级工具调用之间进行有效交替,在 OSWorld-MCP 上达到了最先进的性能。
MobileExplorer: 通过在线探索加速移动GUI智能体的设备端推理
MobileExplorer是一个新框架,通过在模型推理期间对UI元素进行轻量级并行探索,加速移动GUI智能体的设备端推理,将推理步骤和延迟降低23%,同时保持或提高任务成功率。
HypoAgent:一种面向知识图谱的交互式溯因假设生成的智能体框架
HypoAgent是一种面向知识图谱的交互式溯因假设生成的智能体框架,集成了三个智能体以处理不断变化的用户意图和细粒度诊断,实现了最先进的性能。
可发现的主体知识——面向主体化知识图谱功能的形式化框架(扩展版)
这篇扩展论文重新审视了语义网服务在知识图谱方面的见解,提出了一个四维形式化框架和一个主体化功能配置文件(AAP),以便在智能体规划时实现有原则的知识图谱选择、组合和故障诊断。