标签
VideoKR 引入了一个大规模视频推理数据集和基准,旨在通过专家领域内容和人机协同的示例生成,增强知识密集型视频理解。该数据集包含 31.5万个视频推理示例,覆盖 14.5万个专家领域视频。
提出AMATA,一种用于知识密集型问答的多智能体轨迹对齐框架,通过引入轨迹内偏好学习和智能体间依赖学习,提升事实依据和可解释性,在五个基准测试中优于基线方法。