利用视觉-语言模型检测教育视频中的注意力

arXiv cs.AI 2026/05/22 04:00 论文

摘要

本文探讨了使用视觉-语言模型（VLM）通过结合注视数据与视频内容来检测教育视频中的注意力丧失，但发现VLM方法并未超越传统的机器学习基线。

arXiv:2605.20211v1 公告类型: 交叉摘要: 教育视频是远程学习和混合学习的基石。然而，学习者注意力的波动仍然是有效信息保留的重大障碍。先前的研究尝试通过使用眼动追踪在运行时检测并响应注意力丧失来缓解这一问题。这种检测此前一直基于在工程特征（例如学习者注视和扫视的汇总统计）上训练的经典机器学习分类器。这些方法难以捕捉学习者参与度的复杂时间特性，因此预测性能一般。在本研究中，我们旨在通过从标准工程特征转向多模态基础模型来推进注意力检测。利用一个教育眼动追踪数据集（N=70），我们研究了一种新颖的方法，该方法使用视觉-语言模型（VLM）直接分析叠加了注视数据的视频内容。这种方法旨在利用基础模型的语义推理能力，将学习者的注意力集中在视频流中进行情境化。我们使用Gemini 3的多种提示策略评估了这种基于VLM的方法的性能，但最终发现没有一种策略能超越统计基线。我们的结果为在实时教育诊断中使用VLM的局限性提供了新的见解。

查看原文

查看缓存全文

缓存时间: 2026/05/22 08:52

# 利用视觉语言模型检测教育视频中的注意力状态
来源：https://arxiv.org/abs/2605.20211
作者：Gabriel Becquet (https://arxiv.org/search/cs?searchtype=author&query=Becquet,+G)\(LIP6, CNRS, SU\)、Sébastien Lallé (https://arxiv.org/search/cs?searchtype=author&query=Lall%C3%A9,+S)\(CNRS, LIP6, SU\)、Vanda Luengo (https://arxiv.org/search/cs?searchtype=author&query=Luengo,+V)\(LIP6, CNRS, SU\)、Ali Abou\-Hassan (https://arxiv.org/search/cs?searchtype=author&query=Abou-Hassan,+A)\(SU, CNRS, PHENIX, IUF\)

查看 PDF (https://arxiv.org/pdf/2605.20211)

> **摘要：**教育视频是远程学习与混合式学习的基石。然而，学习者注意力的波动仍然是阻碍信息有效留存的关键障碍。先前的研究尝试通过实时检测注意力下降并做出响应来缓解这一问题，通常借助眼动追踪技术。此类检测以往主要基于传统机器学习分类器，这些分类器利用人工设计的特征（如学习者注视和扫视的汇总统计量）进行训练。这些方法难以捕捉学习者参与度中复杂的时序特性，因此预测性能中等。在本研究中，我们旨在通过从标准人工设计特征转向多模态基础模型，来推动注意力检测的进步。利用一个教育眼动追踪数据集（N=70），我们研究了一种新颖的方法：使用视觉语言模型（VLM）直接分析叠加了注视数据的视频内容。该方法旨在利用基础模型的语义推理能力，在视频流中对学习者的关注点进行情境化理解。我们使用 Gemini 3 的多种提示策略评估了这种基于 VLM 的方法的性能，但最终发现没有任何一种策略能够超越统计基线。我们的结果为在实时教育诊断中使用 VLM 的局限性提供了新的见解。

## 提交历史

来自：Sébastien Lalle \[查看电子邮件 (https://arxiv.org/show-email/cefdb055/2605.20211)\] \[通过 CCSD 代理\] **\[v1\]** 2026年4月20日星期一 08:11:43 UTC (2,044 KB)

利用视觉-语言模型检测教育视频中的注意力

相似文章

大型视觉-语言模型在注意力机制中迷失

VLM是通过自适应测试时优化进行视频推理的优秀教师

视觉语言模型能否在数学教育中实现自适应？基于学习者模型的评价标准研究

当视觉为声音代言

LVSA: 用于长视频扩散的无训练稀疏注意力

提交意见反馈