Omni-Persona：对全模态个性化进行系统性基准测试与改进

Hugging Face Daily Papers 2026/05/11 00:00 论文

benchmark omnimodal personalization evaluation multimodal-llm ai-research

摘要

本文介绍了 Omni-Persona，这是首个涵盖文本、图像和音频的全模态个性化综合基准测试。该基准包含 Persona Modality Graph（角色模态图）以及用于评估接地（grounding）行为的新指标 Calibrated Accuracy（校准准确率）。

尽管多模态大语言模型在文本、图像和音频方面取得了进步，但个性化研究主要局限于视觉-语言领域，联合涵盖文本、图像和音频的统一全模态基准测试仍然有限，且在方法论严谨性上存在不足，无法充分应对缺失角色场景或系统的接地研究。我们引入了 Omni-Persona，这是首个针对全模态个性化的综合基准测试。我们将该任务形式化为基于 Persona Modality Graph 的跨模态路由，涵盖 4 个任务组和 18 个细粒度任务，涉及约 750 个项目。为了严格诊断接地行为，我们提出了校准准确率（Calibrated Accuracy，简写为 Cal），该指标在统一评估框架内纳入缺失角色查询，同时奖励正确的接地和适当的拒绝回答。在专用实验中，出现了三个诊断性发现：(i) 开源模型表现出一致的音频与视觉接地差距，RLVR 通过密集的基于规则的监督部分缩小了这一差距；(ii) 可回答召回率和参数规模是不完整的诊断指标，因为高召回率可能与缺失角色幻觉共存，且较大规模的模型并不总能实现更高的 Cal 得分，这暴露出校准是一个独立的评估维度；(iii) SFT 受限于大规模构建标注真值监督的难度，而 RLVR 通过结果层面可验证的反馈实现了更一致泛化，但在我们的奖励设计下，倾向于保守行为并导致生成质量下降。因此，Omni-Persona 作为一个诊断框架，揭示了全模态个性化中的陷阱，指导未来的后训练和奖励设计。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 07:34

论文页面 - Omni-Persona：全模态个性化的系统性基准测试与改进

来源：https://huggingface.co/papers/2605.09996

摘要

Omni-Persona 引入了首个全面的全模态个性化基准测试，包含 Persona Modality Graph（人设模态图）和 Calibrated Accuracy（校准准确率）指标，用于诊断文本、图像和音频模态中的接地（grounding）行为。

尽管多模态大语言模型（https://huggingface.co/papers?q=multimodal%20large%20language%20models）在文本、图像和音频方面取得了进展，但个性化研究仍主要局限于视觉-语言领域，同时涵盖文本、图像和音频的统一全模态基准测试仍然有限，且缺乏方法论的严谨性来处理缺失人设（absent-persona）场景或系统性接地研究。我们引入了 Omni-Persona，这是首个全面的全模态个性化基准测试（https://huggingface.co/papers?q=omnimodal%20personalization）。我们将该任务形式化为在 Persona Modality Graph（https://huggingface.co/papers?q=Persona%20Modality%20Graph）上的跨模态路由（https://huggingface.co/papers?q=cross-modal%20routing），涵盖 4 个任务组和约 750 个项目中的 18 个细粒度任务。为了严格诊断接地行为，我们提出了 Calibrated Accuracy（https://huggingface.co/papers?q=Calibrated%20Accuracy）（ $\mathrm{Cal}$ ），它在统一评估框架中联合奖励正确接地和适当的不作答，并纳入缺失人设查询。在我们的专用实验中，出现了三个诊断发现：（i）开源模型表现出一致的音频 vs 视觉接地差距（https://huggingface.co/papers?q=audio-vs-visual%20grounding%20gap），RLVR（https://huggingface.co/papers?q=RLVR）通过密集的基于规则的监督部分缩小了这一差距；（ii）可回答召回率和参数规模是不完整的诊断指标，因为强召回率可能与缺失人设幻觉共存，且更大的模型并不总是实现更高的 Cal，这暴露出校准是一个独立的评估维度；（iii）SFT（https://huggingface.co/papers?q=SFT）受限于大规模构建标注真实监督的难度，而 RLVR（https://huggingface.co/papers?q=RLVR）通过结果级别的可验证反馈更一致地泛化，但在我们的奖励设计（https://huggingface.co/papers?q=reward%20design）下倾向于保守行为和较低的生成质量。因此，Omni-Persona 作为一个诊断框架，揭示了全模态个性化（https://huggingface.co/papers?q=omnimodal%20personalization）的陷阱，指导未来的后训练和奖励设计（https://huggingface.co/papers?q=reward%20design）。

查看 arXiv 页面（https://arxiv.org/abs/2605.09996）查看 PDF（https://arxiv.org/pdf/2605.09996）GitHub0（https://github.com/oyt9306/Omni-Persona）添加到收藏集（https://huggingface.co/login?next=%2Fpapers%2F2605.09996）

在您的代理中获取此论文：

hf papers read 2605\.09996

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.09996 以从本页链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.09996 以从本页链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.09996 以从本页链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以从本页链接。

Omni-Persona：对全模态个性化进行系统性基准测试与改进

论文页面 - Omni-Persona：全模态个性化的系统性基准测试与改进

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

迈向定制化的多模态角色扮演

超越文本主导：理解全模态大语言模型的模态偏好

PersonaVLM：长期个性化多模态大语言模型

EmoS：面向细粒度流式情感理解的高保真多模态基准

衡量关键指标：医疗保健中生成式、多模态及智能体AI的基准测试

提交意见反馈