研究揭示读唇时人们看到的内容
摘要
堪萨斯大学的研究人员利用网络科学绘制了英语口语词汇的视觉相似性,发现大约三分之一的单词在读唇时看起来至少与另一个单词相似。这项研究提供了关于常见读唇错误的见解,并可能改善人类和人工智能读唇系统的训练。
暂无内容
查看缓存全文
缓存时间: 2026/07/04 06:37
# 研究揭示人们读唇语时真正看到的东西
来源:https://news.ku.edu/news/article/study-reveals-what-people-really-see-when-they-read-lips
波普艺术风格的嘴唇插图
KU(堪萨斯大学)研究人员发现,英语中约三分之一的单词在发音时与至少一个其他单词形似。图片来源:Adobe Stock
## 2026年6月30日(周二)
### 作者
劳伦斯消息——堪萨斯大学的一项新研究运用网络科学来探究人们读唇语时为何会出错。
KU语言-言语-听力学教授Michael Vitevitch与合著者绘制了约2万个英语单词的视觉图谱,旨在更好地理解为什么有些单词比另一些更难读唇。
研究结果发表在《美国声学学会期刊》(Journal of the Acoustical Society of America,https://pubs.aip.org/asa/jasa/article-abstract/159/6/5679/3396301/The-visome-Using-cognitive-networks-to-examine-lip?redirectedFrom=fulltext)上。这些发现可以改进读唇训练,并提升人工智能读取唇语以及提供转录等数字服务的能力。
“我们在本研究中关注的是人们如何基本地读唇、准确度如何,更具体地说,他们犯的是哪种错误,”Vitevitch说。“此前许多研究关注的是人们有多准确,但没有专门考察错误本身的特征。犯错之中有很多可学之处,这就是我们采取的方法。”
虽然过去关于读唇错误的研究也有,但其中大部分由口语研究者完成,他们关注的是音素(语言中的声音)以及参与者的回答与单词发音的接近程度。
Vitevitch则采用了不同的方法。
“我们关注的是视觉特征,”他说。“我们不关注人们获取了多少个单词的声音成分,而是关注他们获取了多少个视觉成分——我们称之为‘视素’(visemes,音素的视觉对应物)。我们聚焦于仅从嘴唇、下颌和口腔中获得的信息,不借助听觉。你只能从看到的内容中提取信息。”
“当某个音被说出时,它看起来什么样?我们不在乎它听起来像什么;我们在乎它说出时看起来如何。”他说。“有时单词听起来相似,看起来也相似,比如‘kit’、‘cat’和‘cut’。其他时候单词听起来不相似,但看起来却很相似,比如‘vet’、‘fit’和‘fuzz’。在这两种情况下,如果你只是看着我的脸,你无法区分这些单词。”
通过对单词图谱的分析,研究人员确定:
- 人们更可能将一个单词误认为另一个更常用的单词。
- 当被说出时,英语中约有三分之一的单词与至少一个其他单词形似。
- 如果一个单词有很多视觉相似词,那么它始终更难被读唇。
- 读唇错误并非随机发生——当视觉相似的单词占据视觉网络中的同一区域时,错误更可能发生。
“一个意外是,人们在这方面其实并不擅长,”Vitevitch说。“我们以为自己擅长,但实际上并不。大多数错误显示你只差一两个视觉特征——一两个视素。你获取了相当多的信息,但也许不足以应付。”
据Vitevitch介绍,研究者的视觉图谱使他们能够理解单词在整个景观中的分布情况。在图中,视觉相似的单词距离近,视觉不相似的单词距离远。
“某些区域比预想的更加拥挤,”他说。“景观以我们未曾预料的方式拉伸和压缩。这种拉伸和压缩对于你读唇时的准确度有影响。它是否会给你带来比原本更多的竞争者?还是会把事物拉远,使它们在感知上更加区分明显?”
KU研究者表示,他的团队希望接下来开展读唇训练研究。
“想法是,如果你追踪人们随时间的错误变化,这些错误应该会向目标单词逐渐缩小,”Vitevitch说。“人们不再离目标很远,而是开始获取他们需要的信息,做出更准确的猜测。”
这项研究的另一个应用是训练自动转录。
“诸如Zoom之类的系统已经能够较好地转录语音,”Vitevitch说。“如果它们不仅使用音频信息,还使用说话者面部的视觉信息,能否做得更好?计算机非常擅长发现模式,有时它们使用的模式与人类相同。我们也许能训练计算机以更像人类的方式做事。”
Vitevitch表示,他的团队将继续以不同方式跟进这项工作。
“我们正在继续探索人们如何做到这一点,可能走向机器学习应用,并寻找帮助需要辅助理解语音的人的方法,”他说。
Vitevitch的合著者包括KU研究生Maia Flynn和Reid Kelly,以及加州州立大学弗雷斯诺分校的Lorin Lachs。
## 2026年6月30日(周二)
## 媒体联系人
相似文章
当视觉为声音代言
本文发现,具备视频处理能力的多模态大语言模型(MLLMs)表面上似乎能够理解音频,但实际上依赖视觉线索,这一失败模式被称为视听Clever Hans效应。我们提出了Thud,一个基于干预的探查框架来诊断该问题,并提出了一种对齐方案,将视听一致性提升了28个百分点。
Brain Score 追踪语言的共享属性:来自多种自然语言和结构序列的证据
本文研究了 Brain Score(一个将语言模型表征与人类阅读时 fMRI 激活进行比较的指标)是否真正捕捉到类似人类的语言处理,或仅反映结构相似性。研究人员在多种自然语言和非语言结构数据(基因组、Python、嵌套括号)上训练语言模型,发现在不同语言和非语言序列上训练的模型达到相似的 Brain Score 性能,这表明该指标可能不足以区分人类特有的处理方式。
看见不等于共享:一些视觉-语言模型在非对称对话中高估共同基础
本文研究了视觉-语言模型在非对称对话中能否区分潜在共同基础与已确立共同基础。在MapTask数据上的实验表明,提供任务相关的地图内容(视觉或文本)会使模型倾向于过度预测对齐,因为它们依赖于静态指示范例而非通过对话历史追踪共同基础的确立过程。
预测阅读时间的探针研究
研究者通过探针语言模型表征,在五种语言中预测人类阅读时间,发现早期层在早期眼动指标上优于惊讶度,而惊讶度在晚期指标上仍占上风。
看见不等于共享:一些视觉语言模型在不对称对话中高估共同基础
本文研究了视觉语言模型中的一种偏差,即模型在对话中高估了共同理解,将感知访问与沟通基础相混淆。研究结果对对话系统和VLM评估具有启示意义。