面向鲁棒视频理解的置信感知工具编排
摘要
Robust-TO通过将每帧可信度集成到智能框架中,解决了视频推理中的盲目信任问题,通过校准证据加权和可靠性感知推理,在现实扰动下提高了准确性。
查看缓存全文
缓存时间: 2026/06/26 06:05
论文页面 - 置信感知工具编排:实现稳健的视频理解
来源:https://huggingface.co/papers/2606.26904
摘要
Robust-TO通过将逐帧可信度整合到智能代理框架中,解决了视频推理中的“盲目信任问题”。该框架通过校准的证据加权和可靠性感知推理,在真实扰动下提升了视频理解的准确性。
视频推理(https://huggingface.co/papers?q=Video%20reasoning)语言模型默认假设每一帧输入都同样可靠。这导致了我们称之为“盲目信任问题”(https://huggingface.co/papers?q=Blind%20Trust%20Problem)的现象:在运动模糊、强光或遮挡等真实扰动下,前沿视频推理(https://huggingface.co/papers?q=video%20reasoning)模型在真实世界具身基准测试中可能遭受15-30%的精度下降,而模型自身却始终未能意识到其视觉证据已受损。为了解决这一挑战,我们提出了Robust-TO,这是一个智能代理视频理解(https://huggingface.co/papers?q=agentic%20video%20understanding)框架,它将逐帧可信度显式集成到推理的每个阶段。Robust-TO将异构的视觉感知工具统一组织在同一个证据接口(https://huggingface.co/papers?q=evidence%20interface)下。每个工具接收一个由原始问题派生的子查询,以及一组由可靠性-相关性评分(https://huggingface.co/papers?q=reliability-relevance%20score)选出的可信帧。工具返回统一格式的证据:一个具体预测(例如边界框、运动轨迹、识别出的文本或动作标签)、时间定位以及一个校准后的可靠性评分(https://huggingface.co/papers?q=calibrated%20reliability%20score)。在推理过程中,这些校准后的评分通过三层合成过程(https://huggingface.co/papers?q=three-tier%20synthesis%20process)(高/中/低)指导证据加权,并定义一个置信-成本GRPO奖励(https://huggingface.co/papers?q=confidence-cost%20GRPO%20reward),以联合优化正确性、证据可靠性和效率。在两个视频推理基准测试(https://huggingface.co/papers?q=video%20reasoning%20benchmarks)(涵盖八个任务)上,Robust-TO在干净输入上达到了56.4%的平均准确率,超出最强的开源基线10.6个百分点,并优于Gemini-2.5-Pro(46.2%)。在五种真实腐败类型下,Robust-TO保持了54.3%的平均准确率,比最强开源基线高出5.8个百分点,同时在所有对比方法中表现出最小的干净到腐败准确率下降。
查看arXiv页面(https://arxiv.org/abs/2606.26904)查看PDF(https://arxiv.org/pdf/2606.26904)项目页面(https://rova-v2.github.io/)GitHub1(https://github.com/ROVA-V2/Robust-TO)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.26904)
引用此论文的模型0
无模型链接到此论文
请在模型README.md中引用arxiv.org/abs/2606.26904,以从此页面建立链接。
引用此论文的数据集0
无数据集链接到此论文
请在数据集README.md中引用arxiv.org/abs/2606.26904,以从此页面建立链接。
引用此论文的Space0
无Space链接到此论文
请在Space README.md中引用arxiv.org/abs/2606.26904,以从此页面建立链接。
包含此论文的收藏集0
无收藏集包含此论文
请将此论文添加到收藏集(https://huggingface.co/new-collection)中,以从此页面建立链接。
相似文章
@_akhaliq:论文:
本文提出了Robust-TO,一个智能视频理解框架,它整合了每帧的可信度来解决盲信任问题,在真实扰动下实现了显著的精度提升。
何时信任工具?工具集成数学推理的自适应工具信任校准
本文介绍了自适应工具信任校准(ATTC)框架,该框架通过使工具集成推理模型能够根据代码置信度得分自适应地决定是否相信或忽视工具结果,从而改进了这些模型。该方法解决了模型错误地忽视正确工具输出的"工具被忽视"问题,在多个模型和数据集上实现了4.1%-7.5%的性能提升。
Agent-ToM: 通过心智理论推理学习监控自主LLM智能体
提出 Agent-ToM,一种基于心智理论推理的学习监控框架,通过推断信念和意图来检测自主LLM智能体中的隐蔽恶意行为,性能优于基线监控器。
Robust-U1:多模态大语言模型能否自我修复受损视觉内容以实现鲁棒理解?
Robust-U1 是一个框架,通过监督微调、双奖励强化学习和联合多模态推理,使多模态大语言模型能够自我修复受损的视觉内容,在鲁棒性基准测试上达到了最先进水平。
CoRA: 面向可靠思维链推理的置信度-理由对齐
本文介绍了CoRA,一种基于GRPO的强化学习框架,旨在将LLM的置信度与生成的理由对齐,以提高思维链推理的可靠性,在多个基准测试中将不对齐误差降低了高达26.51%。