VisualClaw: 面向物理世界的实时个性化智能体

Hugging Face Daily Papers 2026/06/15 00:00 论文

multimodal-agent video-qa real-time skill-evolution edge-applications hybrid-encoding

摘要

VisualClaw是一种自我进化的多模态智能体，通过混合编码和技能进化降低部署成本，同时在多个基准测试中提高了视频问答的准确性。

视觉语言模型正作为复杂多模态任务的通用接口。然而，部署仍面临三个差距：VLM在处理密集视频帧和长提示时通常产生高延迟和高成本；部署后智能体框架保持静态；标准视频问答基准不测试智能体是否能在使用工具的工作空间内利用视觉证据。我们提出了VisualClaw，一种基于两个原则构建的自我进化多模态智能体。首先，混合编码通过级联门控过滤信息较少的流式帧，并通过热/冷top-k注入压缩文本技能库，从而降低部署成本。其次，技能进化让智能体从失败中学习：检索到的记忆作为直接拼接上下文或引导证据来调节进化器，生成技能库更新以帮助未来的问题。在涉及2个VLM的4个视频问答基准测试中，VisualClaw将每问题API成本平均降低98%（相对于全帧上传），相比离线均匀8帧基线降低25.9%，同时在大多数设置中提升准确率，例如在EgoSchema上使用Gemini 3 Flash平均提升3.85%，峰值提升15.80%。为了解决这一差距，我们策划了VisualClawArena，一个包含200个场景的多模态智能体基准，通过严格的五阶段流程构建；模型必须在工作空间内使用视频证据、文档、动态更新和可执行检查。在VisualClawArena上，使用计算机使用智能体后端的相同框架，与无进化基线相比，将Codex (GPT-5.5)的宏观准确率提升2.9%，Claude Code (Sonnet 4.6)提升3.2%，同时相比均匀采样基线成本降低9.5%。这些特性使VisualClaw自然适用于边缘应用，其中级联将1小时的流式会话从约3,600次API上传减少到仅5-20次调用，而自我进化使其成为完美的个性化助手。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:34

论文页面 - VisualClaw：面向物理世界的实时个性化智能体

来源：https://huggingface.co/papers/2606.16295 作者：

，

摘要

VisualClaw 是一个自我进化的多模态智能体，通过混合编码与技能进化降低部署成本，同时在多个基准测试中提升视频问答准确率。

视觉语言模型（https://huggingface.co/papers?q=Vision%20language%20models）正作为通用接口服务于复杂的多模态任务。然而，部署仍面临三个鸿沟：VLM 在处理密集视频帧和长提示时通常产生高延迟与高成本；智能体的支架在部署后保持静态；标准的视频问答基准（https://huggingface.co/papers?q=video-QA%20benchmarks）并未测试智能体是否能在使用工具的工作空间中利用视觉证据。我们提出 VisualClaw——一个自我进化的多模态智能体（https://huggingface.co/papers?q=multimodal%20agent），基于两个原则构建。首先，混合编码（https://huggingface.co/papers?q=hybrid%20encoding）通过级联门控（https://huggingface.co/papers?q=cascaded%20gate）过滤信息较少的流式帧，并通过热/冷 top‑k 注入（https://huggingface.co/papers?q=hot%2Fcold%20top-k%20injection）压缩文本技能库，从而降低部署成本。其次，技能进化（https://huggingface.co/papers?q=skill%20evolution）让智能体从失败中学习：检索到的记忆（https://huggingface.co/papers?q=retrieved%20memories）以直接拼接的上下文或引导性证据的形式条件化进化器（https://huggingface.co/papers?q=evolver），产生技能库更新以帮助未来的问题。在 4 个视频问答基准（https://huggingface.co/papers?q=video-QA%20benchmarks）与 2 个 VLM 上的测试中，VisualClaw 将每次提问的 API 成本平均降低了 –98%（相比全帧上传），相比离线均匀采样的 8 帧基线降低 –25.9%，同时在大多数设置中提升了准确率，例如在 EgoSchema 上使用 Gemini 3 Flash 时平均 +3.85%，峰值 +15.80%。为弥补这一差距，我们整理了 VisualClawArena（https://huggingface.co/papers?q=VisualClawArena）——一个 200 场景的多模态智能体（https://huggingface.co/papers?q=multimodal%20agent）基准，通过严格的五阶段流水线构建；模型必须在工作空间中使用视频证据、文档、动态更新和可执行检查。在 VisualClawArena（https://huggingface.co/papers?q=VisualClawArena）上，同一框架搭配计算机使用智能体（https://huggingface.co/papers?q=computer-use%20agent）后端，使 Codex（GPT‑5.5）的宏准确率提升 +2.9%，Claude Code（Sonnet 4.6）提升 +3.2%，相比无进化基线，成本比均匀采样基线降低 –9.5%。这些特性使 VisualClaw 成为边缘应用（https://huggingface.co/papers?q=edge%20applications）的自然选择：级联门控将 1 小时的流式会话从约 3600 次 API 上传减少到仅 5–20 次调用，而自我进化使其成为完美的个性化助手。

查看 arXiv 页面（https://arxiv.org/abs/2606.16295）查看 PDF（https://arxiv.org/pdf/2606.16295）项目页面（https://ucsc-vlaa.github.io/VisualClaw/）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.16295）

在您的智能体中获取该论文：

hf papers read 2606\.16295

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型链接该论文

请在一个模型 README.md 中引用 arxiv.org/abs/2606.16295 以从此页面链接。

引用该论文的数据集1

UCSC‑VLAA/VisualClawArena 更新于约9小时前 • 21 • 2 (https://huggingface.co/datasets/UCSC-VLAA/VisualClawArena)

引用该论文的 Spaces0

没有 Space 链接该论文

请在一个 Space README.md 中引用 arxiv.org/abs/2606.16295 以从此页面链接。

VisualClaw: 面向物理世界的实时个性化智能体

论文页面 - VisualClaw：面向物理世界的实时个性化智能体

摘要

引用该论文的模型0

引用该论文的数据集1

UCSC‑VLAA/VisualClawArena 更新于约9小时前 • 21 • 2 (https://huggingface.co/datasets/UCSC-VLAA/VisualClawArena)

引用该论文的 Spaces0

包含该论文的收藏1

相似文章

PixelClaw：用于图像处理的 LLM 智能体

SpatialClaw: 重新思考智能体空间推理的动作接口

ClawGUI：用于训练、评估和部署 GUI Agent 的统一框架

SkillClaw：让技能通过智能体进化器集体进化

RS-Claw: 通过层次化技能树实现的渐进式主动工具探索——面向遥感智能体

提交意见反馈