X-OmniClaw 技术报告:一种用于多模态理解与交互的统一移动智能体
摘要
本报告介绍了 X-OmniClaw,这是一个专为 Android 设备设计的统一移动智能体系统,旨在实现多模态理解与交互。报告详细阐述了其利用设备端 AI 能力进行感知、记忆管理及动作执行的架构。
查看缓存全文
缓存时间: 2026/05/12 07:32
论文页面 - X-OmniClaw 技术报告:用于多模态理解与交互的统一移动智能体
来源: https://huggingface.co/papers/2605.05765
https://huggingface.co/papers/2605.05765#x-omniclaw-technical-report-a-unified-mobile-agent-for-multimodal-understanding-and-interactionX-OmniClaw 技术报告:用于多模态理解与交互的统一移动智能体
x-omniclaw_structure (https://cdn-uploads.huggingface.co/production/uploads/6379d7333f8f451d6bd0b80b/S5KhTsHBeqOsOCRdUmavF.png)
https://huggingface.co/papers/2605.05765#omni-perception全知感知
fig1 (https://cdn-uploads.huggingface.co/production/uploads/6379d7333f8f451d6bd0b80b/KkRhiMBRte27AhzHhbsKD.png) 多模态入口与统一接入层。 X-OmniClaw 将多样化的输入——直接 UI 触发、浮动小组件、麦克风输入、定时任务以及外部网关——整合到单一管道中。对于重复的设备端任务,Android AlarmManager 提供系统级的唤醒路径,使定时触发器能够重新汇入相同的入口语义。
集成的多模态感知。 手机被建模为基于屏幕 UI、现实世界相机语境和语音的第一人称多模态系统。相机和屏幕投射提供视觉证据;ASR(自动语音识别)实时转录语音;设备端 AEC(声学回声消除)抑制播放回声。解耦的流式管道缓冲视觉历史,时间对齐模块通过时间戳对齐语音和视频。
基于场景的意图理解。 VLM(视觉语言模型)结合用户查询解读场景,将原始输入扩展为意图。可回答的问题立即返回答案;否则,结构化意图被传递给下游智能体循环。
https://huggingface.co/papers/2605.05765#omni-memory全知记忆
fig2 (https://cdn-uploads.huggingface.co/production/uploads/6379d7333f8f451d6bd0b80b/X-mYjysXsnCiF2QFCt-Lt.png)
工作记忆与长期用户记忆。 工作记忆在多轮对话、前台变化和应用切换中保存多模态运行时上下文——包括截图、提炼的观察结果和执行状态——以便任务恢复时不丢失进度。长期记忆将驻留在设备上的个人数据提炼为持久化工件和用户画像表示,并注入推理过程中。
图库与语义记录。 图库照片被转化为紧凑的语义记录(对象、场景、事件),以支持基于事实的问答、检索和自动化。
记忆的构建、使用与安全。 Skills(技能)编排维护与消费;Tools(工具)实现具体步骤。图像管道优先采用多模态摘要,并备有元数据回退方案。生产与消费相分离;写入需经过过滤/脱敏处理;用户控制图库记忆和画像注入。
https://huggingface.co/papers/2605.05765#omni-action全知行动
fig3 (https://cdn-uploads.huggingface.co/production/uploads/6379d7333f8f451d6bd0b80b/NODa3e3PCcfzCYGAzNA07.png) 应用生态中的全知行动。 每个步骤遵循观察、推理和执行。观察栈融合多模态界面证据;循环选择技能、检索记忆,并返回下一步行动或直接回复。执行范围涵盖 Android 原子动作和更高级别的工具(文件系统、RAG 等)。
混合 UI 理解。 XML、设备端定位和 OCR 定位目标:在结构可靠时使用结构,在提示微弱或杂乱时(尤其是在广告和密集布局下)使用视觉和文本。
轨迹克隆执行。 行为克隆将 UI 层导航记录为名命技能;基于 dumpsys 的内省提取 deeplink/intent 快捷方式。轨迹回放恢复目标“地址”,以便快速重新进入,并在 UI 发生漂移时提供回退方案。
相似文章
OpenClaw 控制 Android 手机?
讨论名为 OpenClaw 的 AI 代理控制 Android 手机的可能性,暗示此类功能现已存在。
多代理团队与
Emperor Claw OS 是一个基于 Web 的任务控制层,用于协调本地 OpenClaw 代理团队,提供共享内存、知识库、任务管理和操作工作流。
我在OpenClaw上构建了一个多智能体平台——72个专业智能体,各自拥有独立领域,全部通过ClawSwarm连接
一位用户构建了AI Pair,这是一个基于OpenClaw的开源协调层,支持72个专业智能体跨领域发现、注册并协作完成复杂任务。
ClawGUI:用于训练、评估和部署 GUI Agent 的统一框架
ClawGUI 是一个开源框架,用于通过强化学习训练、评估和部署 GUI Agent,具备标准化基准测试能力,并支持跨平台部署至 Android、iOS 和 HarmonyOS。
OmniGUI:在全方位模态智能手机环境中对GUI智能体进行基准测试
OmniGUI引入了一个针对GUI智能体的步骤级基准测试,该测试整合了静态图像、同步音频和视频片段,以模拟真实的智能手机交互。评估显示,当前模型在处理时序和听觉输入方面存在困难,凸显了对全方位模态能力的需求。