X-OmniClaw 技术报告:一种用于多模态理解与交互的统一移动智能体

Hugging Face Daily Papers 论文

摘要

本报告介绍了 X-OmniClaw,这是一个专为 Android 设备设计的统一移动智能体系统,旨在实现多模态理解与交互。报告详细阐述了其利用设备端 AI 能力进行感知、记忆管理及动作执行的架构。

受 OpenClaw 发展的启发,市场对于能够处理复杂且直观交互的基于移动端的个人智能体需求日益增长。在本技术报告中,我们介绍了 X-OmniClaw,这是一种专为 Android 生态系统设计的统一移动智能体,旨在实现多模态理解与交互。这种融合感知、记忆与动作的统一架构,使智能体能够以高度的上下文感知能力处理复杂的移动任务。具体而言,Omni Perception(全感知)提供了一种统一的多模态输入管道,整合了 UI 状态、现实视觉上下文以及语音输入,并利用时间对齐模块将原始数据分解为结构化的多模态意图表示。Omni Memory(全记忆)利用多模态记忆优化技术,通过整合用于任务连续性的运行时工作记忆与从本地数据中提炼的长期个人记忆,增强个性化智能,从而实现高度上下文感知且个性化的交互。最后,Omni Action(全行动)采用了一种混合接地(grounding)策略,将结构化 XML 元数据与视觉感知相结合,以实现稳健的交互。通过行为克隆(Behavior Cloning)和轨迹回放(Trajectory Replay),系统将用户导航捕捉为可复用的技能,从而支持精确的直接访问执行。在各种场景下的演示表明,X-OmniClaw 有效提升了交互效率和任务可靠性,为下一代原生移动个人助理提供了实用的架构蓝图。
查看原文
查看缓存全文

缓存时间: 2026/05/12 07:32

论文页面 - X-OmniClaw 技术报告:用于多模态理解与交互的统一移动智能体

来源: https://huggingface.co/papers/2605.05765

https://huggingface.co/papers/2605.05765#x-omniclaw-technical-report-a-unified-mobile-agent-for-multimodal-understanding-and-interactionX-OmniClaw 技术报告:用于多模态理解与交互的统一移动智能体

x-omniclaw_structure (https://cdn-uploads.huggingface.co/production/uploads/6379d7333f8f451d6bd0b80b/S5KhTsHBeqOsOCRdUmavF.png)

https://huggingface.co/papers/2605.05765#omni-perception全知感知

fig1 (https://cdn-uploads.huggingface.co/production/uploads/6379d7333f8f451d6bd0b80b/KkRhiMBRte27AhzHhbsKD.png) 多模态入口与统一接入层。 X-OmniClaw 将多样化的输入——直接 UI 触发、浮动小组件、麦克风输入、定时任务以及外部网关——整合到单一管道中。对于重复的设备端任务,Android AlarmManager 提供系统级的唤醒路径,使定时触发器能够重新汇入相同的入口语义。

集成的多模态感知。 手机被建模为基于屏幕 UI、现实世界相机语境和语音的第一人称多模态系统。相机和屏幕投射提供视觉证据;ASR(自动语音识别)实时转录语音;设备端 AEC(声学回声消除)抑制播放回声。解耦的流式管道缓冲视觉历史,时间对齐模块通过时间戳对齐语音和视频。

基于场景的意图理解。 VLM(视觉语言模型)结合用户查询解读场景,将原始输入扩展为意图。可回答的问题立即返回答案;否则,结构化意图被传递给下游智能体循环。

https://huggingface.co/papers/2605.05765#omni-memory全知记忆

fig2 (https://cdn-uploads.huggingface.co/production/uploads/6379d7333f8f451d6bd0b80b/X-mYjysXsnCiF2QFCt-Lt.png)

工作记忆与长期用户记忆。 工作记忆在多轮对话、前台变化和应用切换中保存多模态运行时上下文——包括截图、提炼的观察结果和执行状态——以便任务恢复时不丢失进度。长期记忆将驻留在设备上的个人数据提炼为持久化工件和用户画像表示,并注入推理过程中。

图库与语义记录。 图库照片被转化为紧凑的语义记录(对象、场景、事件),以支持基于事实的问答、检索和自动化。

记忆的构建、使用与安全。 Skills(技能)编排维护与消费;Tools(工具)实现具体步骤。图像管道优先采用多模态摘要,并备有元数据回退方案。生产与消费相分离;写入需经过过滤/脱敏处理;用户控制图库记忆和画像注入。

https://huggingface.co/papers/2605.05765#omni-action全知行动

fig3 (https://cdn-uploads.huggingface.co/production/uploads/6379d7333f8f451d6bd0b80b/NODa3e3PCcfzCYGAzNA07.png) 应用生态中的全知行动。 每个步骤遵循观察、推理和执行。观察栈融合多模态界面证据;循环选择技能、检索记忆,并返回下一步行动或直接回复。执行范围涵盖 Android 原子动作和更高级别的工具(文件系统、RAG 等)。

混合 UI 理解。 XML、设备端定位和 OCR 定位目标:在结构可靠时使用结构,在提示微弱或杂乱时(尤其是在广告和密集布局下)使用视觉和文本。

轨迹克隆执行。 行为克隆将 UI 层导航记录为名命技能;基于 dumpsys 的内省提取 deeplink/intent 快捷方式。轨迹回放恢复目标“地址”,以便快速重新进入,并在 UI 发生漂移时提供回退方案。

相似文章

多代理团队与

Reddit r/openclaw

Emperor Claw OS 是一个基于 Web 的任务控制层,用于协调本地 OpenClaw 代理团队,提供共享内存、知识库、任务管理和操作工作流。