标签
本文研究了脑电图信号能否补充眼动追踪信号用于微博的自动关键词提取。使用ZuCo语料库,作者表明认知信号,特别是脑电图信号,在不同模型上均能提升自动关键词提取的性能。
本文探讨了使用视觉-语言模型(VLM)通过结合注视数据与视频内容来检测教育视频中的注意力丧失,但发现VLM方法并未超越传统的机器学习基线。
本文介绍了GroupAffect-4,一个包含40名参与者(组成10个四人小组)执行协作任务的多模态数据集。数据集包括对齐的生理、眼动、音频、自我报告和个性数据,以及针对个体内、个体间和群体层面分析的基准目标。
研究者通过探针语言模型表征,在五种语言中预测人类阅读时间,发现早期层在早期眼动指标上优于惊讶度,而惊讶度在晚期指标上仍占上风。
# 论文页面 - NTIRE 2026 视频显著性预测挑战赛:方法与结果 来源:[https://huggingface.co/papers/2604.14816](https://huggingface.co/papers/2604.14816) 作者:,,,,,,,,,,,,,,,,,,,,, ## 摘要 本文概述了 NTIRE 2026 视频显著性预测挑战赛。挑战赛的目标是为提供的视频序列开发自动显著图预测方法。为此,我们准备了一个包含 2,000 条多样化视频、采用开放许可的全新数据集。通过众包鼠标追踪收集注视点及对应显著图,涵盖超过 5,000 名评估者的观看数据。评估在 800 条测试视频子集上进行,采用广泛认可的质量指标。本次挑战赛吸引了 20 余支队伍提交结果,最终 7 支队伍通过代码审查阶段。所有数据均已公开——https://github.com/msu-video-group/NTIRE26_Saliency_Prediction。