利用视觉-语言模型检测教育视频中的注意力

arXiv cs.AI 论文

摘要

本文探讨了使用视觉-语言模型(VLM)通过结合注视数据与视频内容来检测教育视频中的注意力丧失,但发现VLM方法并未超越传统的机器学习基线。

arXiv:2605.20211v1 公告类型: 交叉 摘要: 教育视频是远程学习和混合学习的基石。然而,学习者注意力的波动仍然是有效信息保留的重大障碍。先前的研究尝试通过使用眼动追踪在运行时检测并响应注意力丧失来缓解这一问题。这种检测此前一直基于在工程特征(例如学习者注视和扫视的汇总统计)上训练的经典机器学习分类器。这些方法难以捕捉学习者参与度的复杂时间特性,因此预测性能一般。在本研究中,我们旨在通过从标准工程特征转向多模态基础模型来推进注意力检测。利用一个教育眼动追踪数据集(N=70),我们研究了一种新颖的方法,该方法使用视觉-语言模型(VLM)直接分析叠加了注视数据的视频内容。这种方法旨在利用基础模型的语义推理能力,将学习者的注意力集中在视频流中进行情境化。我们使用Gemini 3的多种提示策略评估了这种基于VLM的方法的性能,但最终发现没有一种策略能超越统计基线。我们的结果为在实时教育诊断中使用VLM的局限性提供了新的见解。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:52

# 利用视觉语言模型检测教育视频中的注意力状态
来源:https://arxiv.org/abs/2605.20211
作者:Gabriel Becquet (https://arxiv.org/search/cs?searchtype=author&query=Becquet,+G)\(LIP6, CNRS, SU\)、Sébastien Lallé (https://arxiv.org/search/cs?searchtype=author&query=Lall%C3%A9,+S)\(CNRS, LIP6, SU\)、Vanda Luengo (https://arxiv.org/search/cs?searchtype=author&query=Luengo,+V)\(LIP6, CNRS, SU\)、Ali Abou\-Hassan (https://arxiv.org/search/cs?searchtype=author&query=Abou-Hassan,+A)\(SU, CNRS, PHENIX, IUF\)

查看 PDF (https://arxiv.org/pdf/2605.20211)

> **摘要:**教育视频是远程学习与混合式学习的基石。然而,学习者注意力的波动仍然是阻碍信息有效留存的关键障碍。先前的研究尝试通过实时检测注意力下降并做出响应来缓解这一问题,通常借助眼动追踪技术。此类检测以往主要基于传统机器学习分类器,这些分类器利用人工设计的特征(如学习者注视和扫视的汇总统计量)进行训练。这些方法难以捕捉学习者参与度中复杂的时序特性,因此预测性能中等。在本研究中,我们旨在通过从标准人工设计特征转向多模态基础模型,来推动注意力检测的进步。利用一个教育眼动追踪数据集(N=70),我们研究了一种新颖的方法:使用视觉语言模型(VLM)直接分析叠加了注视数据的视频内容。该方法旨在利用基础模型的语义推理能力,在视频流中对学习者的关注点进行情境化理解。我们使用 Gemini 3 的多种提示策略评估了这种基于 VLM 的方法的性能,但最终发现没有任何一种策略能够超越统计基线。我们的结果为在实时教育诊断中使用 VLM 的局限性提供了新的见解。

## 提交历史

来自:Sébastien Lalle \[查看电子邮件 (https://arxiv.org/show-email/cefdb055/2605.20211)\] \[通过 CCSD 代理\] **\[v1\]** 2026年4月20日星期一 08:11:43 UTC (2,044 KB)

相似文章

大型视觉-语言模型在注意力机制中迷失

arXiv cs.AI

这篇研究论文利用信息论分析了大型视觉-语言模型(LVLM)的内部机制,揭示了注意力机制可能存在冗余,而前馈网络才是推动语义创新的关键。作者证明,将学习到的注意力权重替换为随机值仍可获得相当的性能,这表明当前模型“在注意力中迷失”。

当视觉为声音代言

Hugging Face Daily Papers

本文发现,具备视频处理能力的多模态大语言模型(MLLMs)表面上似乎能够理解音频,但实际上依赖视觉线索,这一失败模式被称为视听Clever Hans效应。我们提出了Thud,一个基于干预的探查框架来诊断该问题,并提出了一种对齐方案,将视听一致性提升了28个百分点。