VisualClaw: 面向物理世界的实时个性化智能体
摘要
VisualClaw是一种自我进化的多模态智能体,通过混合编码和技能进化降低部署成本,同时在多个基准测试中提高了视频问答的准确性。
查看缓存全文
缓存时间: 2026/06/16 11:34
论文页面 - VisualClaw:面向物理世界的实时个性化智能体
来源:https://huggingface.co/papers/2606.16295 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
VisualClaw 是一个自我进化的多模态智能体,通过混合编码与技能进化降低部署成本,同时在多个基准测试中提升视频问答准确率。
视觉语言模型(https://huggingface.co/papers?q=Vision%20language%20models)正作为通用接口服务于复杂的多模态任务。然而,部署仍面临三个鸿沟:VLM 在处理密集视频帧和长提示时通常产生高延迟与高成本;智能体的支架在部署后保持静态;标准的视频问答基准(https://huggingface.co/papers?q=video-QA%20benchmarks)并未测试智能体是否能在使用工具的工作空间中利用视觉证据。我们提出 VisualClaw——一个自我进化的多模态智能体(https://huggingface.co/papers?q=multimodal%20agent),基于两个原则构建。首先,混合编码(https://huggingface.co/papers?q=hybrid%20encoding)通过级联门控(https://huggingface.co/papers?q=cascaded%20gate)过滤信息较少的流式帧,并通过热/冷 top‑k 注入(https://huggingface.co/papers?q=hot%2Fcold%20top-k%20injection)压缩文本技能库,从而降低部署成本。其次,技能进化(https://huggingface.co/papers?q=skill%20evolution)让智能体从失败中学习:检索到的记忆(https://huggingface.co/papers?q=retrieved%20memories)以直接拼接的上下文或引导性证据的形式条件化进化器(https://huggingface.co/papers?q=evolver),产生技能库更新以帮助未来的问题。在 4 个视频问答基准(https://huggingface.co/papers?q=video-QA%20benchmarks)与 2 个 VLM 上的测试中,VisualClaw 将每次提问的 API 成本平均降低了 –98%(相比全帧上传),相比离线均匀采样的 8 帧基线降低 –25.9%,同时在大多数设置中提升了准确率,例如在 EgoSchema 上使用 Gemini 3 Flash 时平均 +3.85%,峰值 +15.80%。为弥补这一差距,我们整理了 VisualClawArena(https://huggingface.co/papers?q=VisualClawArena)——一个 200 场景的多模态智能体(https://huggingface.co/papers?q=multimodal%20agent)基准,通过严格的五阶段流水线构建;模型必须在工作空间中使用视频证据、文档、动态更新和可执行检查。在 VisualClawArena(https://huggingface.co/papers?q=VisualClawArena)上,同一框架搭配计算机使用智能体(https://huggingface.co/papers?q=computer-use%20agent)后端,使 Codex(GPT‑5.5)的宏准确率提升 +2.9%,Claude Code(Sonnet 4.6)提升 +3.2%,相比无进化基线,成本比均匀采样基线降低 –9.5%。这些特性使 VisualClaw 成为边缘应用(https://huggingface.co/papers?q=edge%20applications)的自然选择:级联门控将 1 小时的流式会话从约 3600 次 API 上传减少到仅 5–20 次调用,而自我进化使其成为完美的个性化助手。
查看 arXiv 页面(https://arxiv.org/abs/2606.16295)查看 PDF(https://arxiv.org/pdf/2606.16295)项目页面(https://ucsc-vlaa.github.io/VisualClaw/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.16295)
在您的智能体中获取该论文:
hf papers read 2606\.16295
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型0
没有模型链接该论文
请在一个模型 README.md 中引用 arxiv.org/abs/2606.16295 以从此页面链接。
引用该论文的数据集1
UCSC‑VLAA/VisualClawArena 更新于约9小时前 • 21 • 2 (https://huggingface.co/datasets/UCSC-VLAA/VisualClawArena)
引用该论文的 Spaces0
没有 Space 链接该论文
请在一个 Space README.md 中引用 arxiv.org/abs/2606.16295 以从此页面链接。
包含该论文的收藏1
相似文章
PixelClaw:用于图像处理的 LLM 智能体
PixelClaw 是一款免费开源的 LLM 智能体,在基于 Raylib 的拖放界面中融合对话式 AI、图像生成与编辑以及音频工具。
SpatialClaw: 重新思考智能体空间推理的动作接口
SpatialClaw是一个无需训练的框架,它采用代码作为动作接口,使视觉语言模型能够进行灵活、有状态的空间推理,在多种3D/4D空间推理任务上取得了卓越性能。
ClawGUI:用于训练、评估和部署 GUI Agent 的统一框架
ClawGUI 是一个开源框架,用于通过强化学习训练、评估和部署 GUI Agent,具备标准化基准测试能力,并支持跨平台部署至 Android、iOS 和 HarmonyOS。
SkillClaw:让技能通过智能体进化器集体进化
SkillClaw 提出了一个框架,用于多用户 LLM 智能体系统中的集体技能进化,通过聚合交互和反馈,实现自主更新和跨用户知识转移,以提升整个生态系统的性能。
RS-Claw: 通过层次化技能树实现的渐进式主动工具探索——面向遥感智能体
RS-Claw 提出了一种用于遥感智能体的主动工具探索范式,利用层次化技能树,支持按需顺序决策,在Earth-Bench上实现了高达86%的输入令牌压缩,并且性能优于被动选择基线。