感知还是偏见：多模态大语言模型能否超越对个性的第一印象？

Hugging Face Daily Papers 2026/05/21 00:00 论文

multimodal-language-models personality-reasoning benchmark dataset social-cognition mllm grounded-reasoning

摘要

研究者引入了MM-OCEAN数据集和一个三级评估框架，用于多模态大语言模型中的基于证据的个性推理，揭示了'偏见鸿沟'——模型常常做出正确的预测，但缺乏合理的证据支撑。

多模态大语言模型（MLLMs）越来越多地部署在需要感知个性的面向人类的角色中，然而现有的基准仅通过数值化的大五人格分数预测来评估这一能力，未明确模型是否真正通过行为理解来感知个性，抑或只是通过表面模式匹配做出预判。我们通过三项贡献来弥补这一空白。(i) 一项新任务：我们形式化了基于证据的个性推理（GPR），要求MLLMs通过评分、推理和证据锚定链将每个大五人格评分锚定在可观察的证据上。(ii) 一个新数据集：我们发布了MM-OCEAN（1104个视频，5320道多选题），通过多智能体流水线结合人工验证生成，包含带时间戳的行为观察、基于证据的特质分析以及七类线索证据型多选题。(iii) 基准测试与分析：我们设计了三层评估（评分、推理、证据），以及四个样本级故障模式指标：偏见率（PR）、虚构率（CR）、整合失败率（IR）和整体证据率（HR），并对27个MLLMs（13个闭源，14个开源）进行了基准测试。分析揭示了一个显著的'偏见鸿沟'：在整个领域中，51%的正确评分并未基于检索到的线索，而整体证据率仅分布在0-33.5%之间。这些发现暴露了得分正确与推理正确之间的脱节，为MLLMs中基于证据的社会认知绘制了路线图。

查看原文

查看缓存全文

缓存时间: 2026/05/22 06:38

论文页面 - 感知还是偏见：多模态大语言模型能否超越第一印象的人格判断？

来源：https://huggingface.co/papers/2605.22109 作者：

摘要

研究者提出了一项新任务和数据集，用于评估多模态语言模型中的人格推理能力，揭示了准确预测与扎实推理过程之间的显著差距。

多模态大语言模型（https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models）（MLLMs）越来越多地部署在需要人格感知的人类交互场景中，然而现有基准仅通过数值化的大五人格分数预测（https://huggingface.co/papers?q=Big%20Five%20score%20prediction）来评估这一能力，未能探究模型究竟是真正通过行为理解来感知人格，还是仅仅通过表面模式匹配进行预判。我们通过三项贡献来填补这一空白。（i）新任务：我们正式定义了基于证据的人格推理（https://huggingface.co/papers?q=Grounded%20Personality%20Reasoning）（GPR），要求MLLMs通过评分链（https://huggingface.co/papers?q=chain%20of%20rating）、推理（https://huggingface.co/papers?q=reasoning）和证据锚定（https://huggingface.co/papers?q=and%20grounding），将每个大五人格评分与可观察的证据联系起来。（ii）新数据集：我们发布了MM-OCEAN（1,104个视频，5,320道多选题），该数据集通过多智能体流水线（https://huggingface.co/papers?q=multi-agent%20pipeline）生成并经过人工验证，包含带时间戳的行为观察（https://huggingface.co/papers?q=behavioral%20observations）、基于证据的特质分析（https://huggingface.co/papers?q=evidence-grounded%20trait%20analyses）以及七大类的线索锚定选择题（https://huggingface.co/papers?q=cue-grounding%20MCQs）。（iii）基准与分析：我们设计了三级评估体系（https://huggingface.co/papers?q=three-tier%20evaluation）（评分、推理（https://huggingface.co/papers?q=reasoning）、证据锚定），并定义了四项样本级失效模式指标：偏见率（https://huggingface.co/papers?q=Prejudice%20Rate）（PR）、虚构率（https://huggingface.co/papers?q=Confabulation%20Rate）（CR）、整合失败率（https://huggingface.co/papers?q=Integration-failure%20Rate）（IR）和整体锚定率（https://huggingface.co/papers?q=Holistic-grounding%20Rate）（HR），并对27个MLLMs（13个闭源，14个开源）进行了基准测试。分析揭示了一个惊人的偏见差距：整体而言，51%的正确评分并未锚定于已检索的线索，而整体锚定率（https://huggingface.co/papers?q=Holistic-grounding%20Rate）仅分布在0-33.5%之间。这些发现暴露了评分正确与以正确理由进行推理（https://huggingface.co/papers?q=reasoning）之间的脱节，为MLLMs的锚定式社会认知绘制了路线图。

查看arXiv页面（https://arxiv.org/abs/2605.22109）查看PDF（https://arxiv.org/pdf/2605.22109）GitHub2（https://github.com/kkkcx/MM-OCEAN）加入收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.22109）

将此论文加载到你的智能体中：

hf papers read 2605.22109

没有最新CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型（0）

暂无模型关联此论文

请在模型README.md中引用arxiv.org/abs/2605.22109以在此页面建立链接。

引用此论文的数据集（1）

anonymous-mm-ocean/MM-OCEAN 更新于约4小时前 • 338 (https://huggingface.co/datasets/anonymous-mm-ocean/MM-OCEAN)

引用此论文的Spaces（0）

暂无Space关联此论文

请在Space README.md中引用arxiv.org/abs/2605.22109以在此页面建立链接。

包含此论文的合集（0）

暂无合集包含此论文

请将本论文添加到合集（https://huggingface.co/new-collection）中以在此页面建立链接。

感知还是偏见：多模态大语言模型能否超越对个性的第一印象？

论文页面 - 感知还是偏见：多模态大语言模型能否超越第一印象的人格判断？

摘要

引用此论文的模型（0）

引用此论文的数据集（1）

anonymous-mm-ocean/MM-OCEAN 更新于约4小时前 • 338 (https://huggingface.co/datasets/anonymous-mm-ocean/MM-OCEAN)

引用此论文的Spaces（0）

包含此论文的合集（0）

相似文章

一个好的AI代理技能安全扫描器基准测试应该包含什么？

CDR-Bench：评估组合性、顺序敏感数据精炼指令的忠实执行能力

大型语言模型在浮点错误分类上的基准测试

通过语言与符号表示之间的模态切换进行空间推理

HealthAgentBench: 面向前沿AI智能体的统一真实医疗智能体环境基准套件

提交意见反馈