感知还是偏见:多模态大语言模型能否超越对个性的第一印象?
摘要
研究者引入了MM-OCEAN数据集和一个三级评估框架,用于多模态大语言模型中的基于证据的个性推理,揭示了'偏见鸿沟'——模型常常做出正确的预测,但缺乏合理的证据支撑。
查看缓存全文
缓存时间: 2026/05/22 06:38
论文页面 - 感知还是偏见:多模态大语言模型能否超越第一印象的人格判断?
来源:https://huggingface.co/papers/2605.22109 作者:
,
,
,
,
,
,
,
,
,
摘要
研究者提出了一项新任务和数据集,用于评估多模态语言模型中的人格推理能力,揭示了准确预测与扎实推理过程之间的显著差距。
多模态大语言模型(https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models)(MLLMs)越来越多地部署在需要人格感知的人类交互场景中,然而现有基准仅通过数值化的大五人格分数预测(https://huggingface.co/papers?q=Big%20Five%20score%20prediction)来评估这一能力,未能探究模型究竟是真正通过行为理解来感知人格,还是仅仅通过表面模式匹配进行预判。我们通过三项贡献来填补这一空白。(i)新任务:我们正式定义了基于证据的人格推理(https://huggingface.co/papers?q=Grounded%20Personality%20Reasoning)(GPR),要求MLLMs通过评分链(https://huggingface.co/papers?q=chain%20of%20rating)、推理(https://huggingface.co/papers?q=reasoning)和证据锚定(https://huggingface.co/papers?q=and%20grounding),将每个大五人格评分与可观察的证据联系起来。(ii)新数据集:我们发布了MM-OCEAN(1,104个视频,5,320道多选题),该数据集通过多智能体流水线(https://huggingface.co/papers?q=multi-agent%20pipeline)生成并经过人工验证,包含带时间戳的行为观察(https://huggingface.co/papers?q=behavioral%20observations)、基于证据的特质分析(https://huggingface.co/papers?q=evidence-grounded%20trait%20analyses)以及七大类的线索锚定选择题(https://huggingface.co/papers?q=cue-grounding%20MCQs)。(iii)基准与分析:我们设计了三级评估体系(https://huggingface.co/papers?q=three-tier%20evaluation)(评分、推理(https://huggingface.co/papers?q=reasoning)、证据锚定),并定义了四项样本级失效模式指标:偏见率(https://huggingface.co/papers?q=Prejudice%20Rate)(PR)、虚构率(https://huggingface.co/papers?q=Confabulation%20Rate)(CR)、整合失败率(https://huggingface.co/papers?q=Integration-failure%20Rate)(IR)和整体锚定率(https://huggingface.co/papers?q=Holistic-grounding%20Rate)(HR),并对27个MLLMs(13个闭源,14个开源)进行了基准测试。分析揭示了一个惊人的偏见差距:整体而言,51%的正确评分并未锚定于已检索的线索,而整体锚定率(https://huggingface.co/papers?q=Holistic-grounding%20Rate)仅分布在0-33.5%之间。这些发现暴露了评分正确与以正确理由进行推理(https://huggingface.co/papers?q=reasoning)之间的脱节,为MLLMs的锚定式社会认知绘制了路线图。
查看arXiv页面(https://arxiv.org/abs/2605.22109)查看PDF(https://arxiv.org/pdf/2605.22109)GitHub2(https://github.com/kkkcx/MM-OCEAN)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.22109)
将此论文加载到你的智能体中:
hf papers read 2605.22109
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型(0)
暂无模型关联此论文
请在模型README.md中引用arxiv.org/abs/2605.22109以在此页面建立链接。
引用此论文的数据集(1)
anonymous-mm-ocean/MM-OCEAN 更新于约4小时前 • 338 (https://huggingface.co/datasets/anonymous-mm-ocean/MM-OCEAN)
引用此论文的Spaces(0)
暂无Space关联此论文
请在Space README.md中引用arxiv.org/abs/2605.22109以在此页面建立链接。
包含此论文的合集(0)
暂无合集包含此论文
请将本论文添加到合集(https://huggingface.co/new-collection)中以在此页面建立链接。
相似文章
一个好的AI代理技能安全扫描器基准测试应该包含什么?
讨论了为评估AI代理技能的安全扫描器设计基准测试的挑战,这些技能引入了新的供应链风险。它还质疑基准测试是否应包括真实世界的恶意样本、合成案例、完整技能目录或边界案例。
CDR-Bench:评估组合性、顺序敏感数据精炼指令的忠实执行能力
介绍CDR-Bench,一个包含3,462个任务的基准,用于评估LLM忠实执行组合性、顺序敏感数据精炼指令的能力。在10多个LLM上的实验表明,在组合性和顺序敏感的设置中性能显著下降,凸显了缺乏执行流程的忠实性。
大型语言模型在浮点错误分类上的基准测试
本文介绍了InterFLOPBench,这是一个用于评估LLM在C代码中检测浮点错误的基准测试,发现最近的模型取得了较高的F1分数,但性能因错误类型而异。
通过语言与符号表示之间的模态切换进行空间推理
本文探讨了将多跳文本-空间故事嵌入到几何感知模态(如网格)中的方法,展示了从纯语言推理切换到基于网格的推理时性能提升42%,并引入了一种用于LLM模态选择的切换度量。
HealthAgentBench: 面向前沿AI智能体的统一真实医疗智能体环境基准套件
本文介绍了HealthAgentBench,一个包含54个真实医疗任务的套件,用于评估前沿AI智能体。研究发现,即使是最强的智能体(Codex GPT-5.5)也仅能达到约42%的成功率,凸显了巨大的改进空间。