面向鲁棒视频理解的置信感知工具编排

Hugging Face Daily Papers 论文

摘要

Robust-TO通过将每帧可信度集成到智能框架中,解决了视频推理中的盲目信任问题,通过校准证据加权和可靠性感知推理,在现实扰动下提高了准确性。

视频推理语言模型隐含地假设每个输入帧同样可靠。这导致我们称之为盲目信任问题:在运动模糊、眩光或遮挡等现实扰动下,前沿视频推理模型在现实世界具身基准测试上的准确率可能下降15-30个百分点,同时却未意识到其视觉证据已退化。为解决这一挑战,我们提出Robust-TO,一个智能视频理解框架,明确地将每帧可信度集成到推理的每个阶段。Robust-TO将异构视觉感知工具组织在统一的证据接口下。每个工具接收从原始问题派生的子查询和一组由可靠性-相关性分数选择的可信帧。它以共享格式返回证据:具体预测(如边界框、运动轨迹、识别文本或动作标签)、时间定位以及校准的可靠性分数。在推理过程中,这些校准分数指导三级综合过程(高/中/低)中的证据加权,并定义置信度-成本GRPO奖励,共同优化正确性、证据可靠性和效率。在覆盖八项任务的两个视频推理基准测试上,Robust-TO在干净输入上达到56.4%的平均准确率,超过最强开源基线10.6个百分点,并优于Gemini-2.5-Pro(46.2%)。在五种现实损坏类型下,Robust-TO保持54.3%的平均准确率,比最强开源基线高5.8个百分点,并且在所有比较方法中显示出最小的干净到损坏准确率下降。
查看原文
查看缓存全文

缓存时间: 2026/06/26 06:05

论文页面 - 置信感知工具编排:实现稳健的视频理解

来源:https://huggingface.co/papers/2606.26904

摘要

Robust-TO通过将逐帧可信度整合到智能代理框架中,解决了视频推理中的“盲目信任问题”。该框架通过校准的证据加权和可靠性感知推理,在真实扰动下提升了视频理解的准确性。

视频推理(https://huggingface.co/papers?q=Video%20reasoning)语言模型默认假设每一帧输入都同样可靠。这导致了我们称之为“盲目信任问题”(https://huggingface.co/papers?q=Blind%20Trust%20Problem)的现象:在运动模糊、强光或遮挡等真实扰动下,前沿视频推理(https://huggingface.co/papers?q=video%20reasoning)模型在真实世界具身基准测试中可能遭受15-30%的精度下降,而模型自身却始终未能意识到其视觉证据已受损。为了解决这一挑战,我们提出了Robust-TO,这是一个智能代理视频理解(https://huggingface.co/papers?q=agentic%20video%20understanding)框架,它将逐帧可信度显式集成到推理的每个阶段。Robust-TO将异构的视觉感知工具统一组织在同一个证据接口(https://huggingface.co/papers?q=evidence%20interface)下。每个工具接收一个由原始问题派生的子查询,以及一组由可靠性-相关性评分(https://huggingface.co/papers?q=reliability-relevance%20score)选出的可信帧。工具返回统一格式的证据:一个具体预测(例如边界框、运动轨迹、识别出的文本或动作标签)、时间定位以及一个校准后的可靠性评分(https://huggingface.co/papers?q=calibrated%20reliability%20score)。在推理过程中,这些校准后的评分通过三层合成过程(https://huggingface.co/papers?q=three-tier%20synthesis%20process)(高/中/低)指导证据加权,并定义一个置信-成本GRPO奖励(https://huggingface.co/papers?q=confidence-cost%20GRPO%20reward),以联合优化正确性、证据可靠性和效率。在两个视频推理基准测试(https://huggingface.co/papers?q=video%20reasoning%20benchmarks)(涵盖八个任务)上,Robust-TO在干净输入上达到了56.4%的平均准确率,超出最强的开源基线10.6个百分点,并优于Gemini-2.5-Pro(46.2%)。在五种真实腐败类型下,Robust-TO保持了54.3%的平均准确率,比最强开源基线高出5.8个百分点,同时在所有对比方法中表现出最小的干净到腐败准确率下降。

查看arXiv页面(https://arxiv.org/abs/2606.26904)查看PDF(https://arxiv.org/pdf/2606.26904)项目页面(https://rova-v2.github.io/)GitHub1(https://github.com/ROVA-V2/Robust-TO)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.26904)

引用此论文的模型0

无模型链接到此论文

请在模型README.md中引用arxiv.org/abs/2606.26904,以从此页面建立链接。

引用此论文的数据集0

无数据集链接到此论文

请在数据集README.md中引用arxiv.org/abs/2606.26904,以从此页面建立链接。

引用此论文的Space0

无Space链接到此论文

请在Space README.md中引用arxiv.org/abs/2606.26904,以从此页面建立链接。

包含此论文的收藏集0

无收藏集包含此论文

请将此论文添加到收藏集(https://huggingface.co/new-collection)中,以从此页面建立链接。

相似文章

@_akhaliq:论文:

X AI KOLs Following

本文提出了Robust-TO,一个智能视频理解框架,它整合了每帧的可信度来解决盲信任问题,在真实扰动下实现了显著的精度提升。

何时信任工具?工具集成数学推理的自适应工具信任校准

arXiv cs.CL

本文介绍了自适应工具信任校准(ATTC)框架,该框架通过使工具集成推理模型能够根据代码置信度得分自适应地决定是否相信或忽视工具结果,从而改进了这些模型。该方法解决了模型错误地忽视正确工具输出的"工具被忽视"问题,在多个模型和数据集上实现了4.1%-7.5%的性能提升。

CoRA: 面向可靠思维链推理的置信度-理由对齐

arXiv cs.CL

本文介绍了CoRA,一种基于GRPO的强化学习框架,旨在将LLM的置信度与生成的理由对齐,以提高思维链推理的可靠性,在多个基准测试中将不对齐误差降低了高达26.51%。