NTIRE 2026 视频显著性预测挑战赛:方法与结果
摘要
# 论文页面 - NTIRE 2026 视频显著性预测挑战赛:方法与结果 来源:[https://huggingface.co/papers/2604.14816](https://huggingface.co/papers/2604.14816) 作者:,,,,,,,,,,,,,,,,,,,,, ## 摘要 本文概述了 NTIRE 2026 视频显著性预测挑战赛。挑战赛的目标是为提供的视频序列开发自动显著图预测方法。为此,我们准备了一个包含 2,000 条多样化视频、采用开放许可的全新数据集。通过众包鼠标追踪收集注视点及对应显著图,涵盖超过 5,000 名评估者的观看数据。评估在 800 条测试视频子集上进行,采用广泛认可的质量指标。本次挑战赛吸引了 20 余支队伍提交结果,最终 7 支队伍通过代码审查阶段。所有数据均已公开——https://github.com/msu-video-group/NTIRE26_Saliency_Prediction。
查看缓存全文
缓存时间: 2026/04/21 07:21
NTIRE 2026 视频显著性预测挑战赛:方法与结果
来源:https://huggingface.co/papers/2604.14816
作者:,,,,,,,,,,,,,,,,,,,,,
摘要
本文概述了 NTIRE 2026 视频显著性预测挑战赛。参赛者的目标是为提供的视频序列开发自动化的显著图预测方法。为此挑战赛准备了一个包含 2,000 条多样化视频的新数据集,采用开放许可证。通过众包鼠标追踪收集注视点及对应显著图,包含超过 5,000 名评估者的观看数据。在 800 条测试视频子集上使用通用质量指标进行评估。挑战赛吸引了 20 余支队伍提交,最终 7 支队伍通过代码审核。所有数据已公开:https://github.com/msu-video-group/NTIRE26_Saliency_Prediction。
查看 arXiv 页面 (https://arxiv.org/abs/2604.14816)
查看 PDF (https://arxiv.org/pdf/2604.14816)
项目主页 (https://www.codabench.org/competitions/12842/)
GitHub15 (https://github.com/msu-video-group/NTIRE26_Saliency_Prediction)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.14816)
在您的 agent 中获取本文:
hf papers read 2604.14816
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型 0
暂无模型链接本文
在模型 README.md 中引用 arxiv.org/abs/2604.14816,即可在此页面显示链接。
引用本文的数据集 0
暂无数据集链接本文
在数据集 README.md 中引用 arxiv.org/abs/2604.14816,即可在此页面显示链接。
引用本文的 Spaces 0
暂无 Space 链接本文
在 Space README.md 中引用 arxiv.org/abs/2604.14816,即可在此页面显示链接。
包含本文的合集 0
暂无合集包含本文
将本文添加到合集 (https://huggingface.co/new-collection),即可在此页面显示链接。
相似文章
Sparkle:通过解耦指导实现生动的指令引导视频背景替换
本文介绍了Sparkle,这是一个用于指令引导视频背景替换的新数据集和基准,解决了该领域缺乏高质量训练数据的问题。它提出了一种具有解耦指导的可扩展流水线,以生成逼真的前景-背景交互。
表征先于像素:语义引导的分层视频预测
Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。
VEFX-Bench:通用视频编辑与视觉特效的全方位基准
VEFX-Bench 引入了一个大规模人工标注的视频编辑数据集(5,049个样本),包含多维质量标签,以及一个专门用于标准化评估视频编辑系统的奖励模型。该论文针对AI辅助视频创作中缺乏全面基准的问题,提供了VEFX-Dataset、VEFX-Reward和一个300个视频提示对的基准测试,揭示了当前编辑模型中的差距。
AtManRL: 通过可微分注意力显著性实现忠实推理
AtManRL 是一种通过可微分注意力操作和强化学习来训练大语言模型的方法,旨在确保推理令牌因果地影响最终预测,从而生成更忠实的思维链推理。在 GSM8K 和 MMLU 上使用 Llama-3.2-3B 进行的实验表明,该方法能够识别具有影响力的推理令牌并提高推理透明度。
评估安全关键型ATR系统中的可解释性:事后方法的局限性与迈向稳健型XAI的路径
本文评估了安全关键型自动目标识别(ATR)系统中的可解释性方法,突出了显著性图和注意力图等事后技术的局限性。提出了一种分类法和评估框架,以解决虚假解释和不稳定性等问题,倡导采用更稳健、基于因果关系的XAI方法。