感知还是偏见:多模态大语言模型能否超越对个性的第一印象?

Hugging Face Daily Papers 论文

摘要

研究者引入了MM-OCEAN数据集和一个三级评估框架,用于多模态大语言模型中的基于证据的个性推理,揭示了'偏见鸿沟'——模型常常做出正确的预测,但缺乏合理的证据支撑。

多模态大语言模型(MLLMs)越来越多地部署在需要感知个性的面向人类的角色中,然而现有的基准仅通过数值化的大五人格分数预测来评估这一能力,未明确模型是否真正通过行为理解来感知个性,抑或只是通过表面模式匹配做出预判。我们通过三项贡献来弥补这一空白。(i) 一项新任务:我们形式化了基于证据的个性推理(GPR),要求MLLMs通过评分、推理和证据锚定链将每个大五人格评分锚定在可观察的证据上。(ii) 一个新数据集:我们发布了MM-OCEAN(1104个视频,5320道多选题),通过多智能体流水线结合人工验证生成,包含带时间戳的行为观察、基于证据的特质分析以及七类线索证据型多选题。(iii) 基准测试与分析:我们设计了三层评估(评分、推理、证据),以及四个样本级故障模式指标:偏见率(PR)、虚构率(CR)、整合失败率(IR)和整体证据率(HR),并对27个MLLMs(13个闭源,14个开源)进行了基准测试。分析揭示了一个显著的'偏见鸿沟':在整个领域中,51%的正确评分并未基于检索到的线索,而整体证据率仅分布在0-33.5%之间。这些发现暴露了得分正确与推理正确之间的脱节,为MLLMs中基于证据的社会认知绘制了路线图。
查看原文
查看缓存全文

缓存时间: 2026/05/22 06:38

论文页面 - 感知还是偏见:多模态大语言模型能否超越第一印象的人格判断?

来源:https://huggingface.co/papers/2605.22109 作者:

,

,

,

,

,

,

,

,

,

摘要

研究者提出了一项新任务和数据集,用于评估多模态语言模型中的人格推理能力,揭示了准确预测与扎实推理过程之间的显著差距。

多模态大语言模型(https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models)(MLLMs)越来越多地部署在需要人格感知的人类交互场景中,然而现有基准仅通过数值化的大五人格分数预测(https://huggingface.co/papers?q=Big%20Five%20score%20prediction)来评估这一能力,未能探究模型究竟是真正通过行为理解来感知人格,还是仅仅通过表面模式匹配进行预判。我们通过三项贡献来填补这一空白。(i)新任务:我们正式定义了基于证据的人格推理(https://huggingface.co/papers?q=Grounded%20Personality%20Reasoning)(GPR),要求MLLMs通过评分链(https://huggingface.co/papers?q=chain%20of%20rating)、推理(https://huggingface.co/papers?q=reasoning)和证据锚定(https://huggingface.co/papers?q=and%20grounding),将每个大五人格评分与可观察的证据联系起来。(ii)新数据集:我们发布了MM-OCEAN(1,104个视频,5,320道多选题),该数据集通过多智能体流水线(https://huggingface.co/papers?q=multi-agent%20pipeline)生成并经过人工验证,包含带时间戳的行为观察(https://huggingface.co/papers?q=behavioral%20observations)、基于证据的特质分析(https://huggingface.co/papers?q=evidence-grounded%20trait%20analyses)以及七大类的线索锚定选择题(https://huggingface.co/papers?q=cue-grounding%20MCQs)。(iii)基准与分析:我们设计了三级评估体系(https://huggingface.co/papers?q=three-tier%20evaluation)(评分、推理(https://huggingface.co/papers?q=reasoning)、证据锚定),并定义了四项样本级失效模式指标:偏见率(https://huggingface.co/papers?q=Prejudice%20Rate)(PR)、虚构率(https://huggingface.co/papers?q=Confabulation%20Rate)(CR)、整合失败率(https://huggingface.co/papers?q=Integration-failure%20Rate)(IR)和整体锚定率(https://huggingface.co/papers?q=Holistic-grounding%20Rate)(HR),并对27个MLLMs(13个闭源,14个开源)进行了基准测试。分析揭示了一个惊人的偏见差距:整体而言,51%的正确评分并未锚定于已检索的线索,而整体锚定率(https://huggingface.co/papers?q=Holistic-grounding%20Rate)仅分布在0-33.5%之间。这些发现暴露了评分正确与以正确理由进行推理(https://huggingface.co/papers?q=reasoning)之间的脱节,为MLLMs的锚定式社会认知绘制了路线图。

查看arXiv页面(https://arxiv.org/abs/2605.22109)查看PDF(https://arxiv.org/pdf/2605.22109)GitHub2(https://github.com/kkkcx/MM-OCEAN)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.22109)

将此论文加载到你的智能体中:

hf papers read 2605.22109

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型(0)

暂无模型关联此论文

请在模型README.md中引用arxiv.org/abs/2605.22109以在此页面建立链接。

引用此论文的数据集(1)

anonymous-mm-ocean/MM-OCEAN 更新于约4小时前 • 338 (https://huggingface.co/datasets/anonymous-mm-ocean/MM-OCEAN)

引用此论文的Spaces(0)

暂无Space关联此论文

请在Space README.md中引用arxiv.org/abs/2605.22109以在此页面建立链接。

包含此论文的合集(0)

暂无合集包含此论文

请将本论文添加到合集(https://huggingface.co/new-collection)中以在此页面建立链接。

相似文章