面向鲁棒视频理解的置信感知工具编排

Hugging Face Daily Papers 2026/06/25 00:00 论文

video-understanding tool-orchestration confidence-aware robust agentic-framework reasoning trustworthiness

摘要

Robust-TO通过将每帧可信度集成到智能框架中，解决了视频推理中的盲目信任问题，通过校准证据加权和可靠性感知推理，在现实扰动下提高了准确性。

视频推理语言模型隐含地假设每个输入帧同样可靠。这导致我们称之为盲目信任问题：在运动模糊、眩光或遮挡等现实扰动下，前沿视频推理模型在现实世界具身基准测试上的准确率可能下降15-30个百分点，同时却未意识到其视觉证据已退化。为解决这一挑战，我们提出Robust-TO，一个智能视频理解框架，明确地将每帧可信度集成到推理的每个阶段。Robust-TO将异构视觉感知工具组织在统一的证据接口下。每个工具接收从原始问题派生的子查询和一组由可靠性-相关性分数选择的可信帧。它以共享格式返回证据：具体预测（如边界框、运动轨迹、识别文本或动作标签）、时间定位以及校准的可靠性分数。在推理过程中，这些校准分数指导三级综合过程（高/中/低）中的证据加权，并定义置信度-成本GRPO奖励，共同优化正确性、证据可靠性和效率。在覆盖八项任务的两个视频推理基准测试上，Robust-TO在干净输入上达到56.4%的平均准确率，超过最强开源基线10.6个百分点，并优于Gemini-2.5-Pro（46.2%）。在五种现实损坏类型下，Robust-TO保持54.3%的平均准确率，比最强开源基线高5.8个百分点，并且在所有比较方法中显示出最小的干净到损坏准确率下降。

查看原文

查看缓存全文

缓存时间: 2026/06/26 06:05

论文页面 - 置信感知工具编排：实现稳健的视频理解

来源：https://huggingface.co/papers/2606.26904

摘要

Robust-TO通过将逐帧可信度整合到智能代理框架中，解决了视频推理中的“盲目信任问题”。该框架通过校准的证据加权和可靠性感知推理，在真实扰动下提升了视频理解的准确性。

视频推理（https://huggingface.co/papers?q=Video%20reasoning）语言模型默认假设每一帧输入都同样可靠。这导致了我们称之为“盲目信任问题”（https://huggingface.co/papers?q=Blind%20Trust%20Problem）的现象：在运动模糊、强光或遮挡等真实扰动下，前沿视频推理（https://huggingface.co/papers?q=video%20reasoning）模型在真实世界具身基准测试中可能遭受15-30%的精度下降，而模型自身却始终未能意识到其视觉证据已受损。为了解决这一挑战，我们提出了Robust-TO，这是一个智能代理视频理解（https://huggingface.co/papers?q=agentic%20video%20understanding）框架，它将逐帧可信度显式集成到推理的每个阶段。Robust-TO将异构的视觉感知工具统一组织在同一个证据接口（https://huggingface.co/papers?q=evidence%20interface）下。每个工具接收一个由原始问题派生的子查询，以及一组由可靠性-相关性评分（https://huggingface.co/papers?q=reliability-relevance%20score）选出的可信帧。工具返回统一格式的证据：一个具体预测（例如边界框、运动轨迹、识别出的文本或动作标签）、时间定位以及一个校准后的可靠性评分（https://huggingface.co/papers?q=calibrated%20reliability%20score）。在推理过程中，这些校准后的评分通过三层合成过程（https://huggingface.co/papers?q=three-tier%20synthesis%20process）（高/中/低）指导证据加权，并定义一个置信-成本GRPO奖励（https://huggingface.co/papers?q=confidence-cost%20GRPO%20reward），以联合优化正确性、证据可靠性和效率。在两个视频推理基准测试（https://huggingface.co/papers?q=video%20reasoning%20benchmarks）（涵盖八个任务）上，Robust-TO在干净输入上达到了56.4%的平均准确率，超出最强的开源基线10.6个百分点，并优于Gemini-2.5-Pro（46.2%）。在五种真实腐败类型下，Robust-TO保持了54.3%的平均准确率，比最强开源基线高出5.8个百分点，同时在所有对比方法中表现出最小的干净到腐败准确率下降。

查看arXiv页面（https://arxiv.org/abs/2606.26904）查看PDF（https://arxiv.org/pdf/2606.26904）项目页面（https://rova-v2.github.io/）GitHub1（https://github.com/ROVA-V2/Robust-TO）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.26904）

引用此论文的模型0

无模型链接到此论文

请在模型README.md中引用arxiv.org/abs/2606.26904，以从此页面建立链接。

引用此论文的数据集0

无数据集链接到此论文

请在数据集README.md中引用arxiv.org/abs/2606.26904，以从此页面建立链接。

引用此论文的Space0

无Space链接到此论文

请在Space README.md中引用arxiv.org/abs/2606.26904，以从此页面建立链接。

包含此论文的收藏集0

无收藏集包含此论文

请将此论文添加到收藏集（https://huggingface.co/new-collection）中，以从此页面建立链接。

面向鲁棒视频理解的置信感知工具编排

论文页面 - 置信感知工具编排：实现稳健的视频理解

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

@_akhaliq：论文：

何时信任工具？工具集成数学推理的自适应工具信任校准

Agent-ToM: 通过心智理论推理学习监控自主LLM智能体

Robust-U1：多模态大语言模型能否自我修复受损视觉内容以实现鲁棒理解？

CoRA: 面向可靠思维链推理的置信度-理由对齐

提交意见反馈