Omni-Persona:对全模态个性化进行系统性基准测试与改进

Hugging Face Daily Papers 论文

摘要

本文介绍了 Omni-Persona,这是首个涵盖文本、图像和音频的全模态个性化综合基准测试。该基准包含 Persona Modality Graph(角色模态图)以及用于评估接地(grounding)行为的新指标 Calibrated Accuracy(校准准确率)。

尽管多模态大语言模型在文本、图像和音频方面取得了进步,但个性化研究主要局限于视觉-语言领域,联合涵盖文本、图像和音频的统一全模态基准测试仍然有限,且在方法论严谨性上存在不足,无法充分应对缺失角色场景或系统的接地研究。我们引入了 Omni-Persona,这是首个针对全模态个性化的综合基准测试。我们将该任务形式化为基于 Persona Modality Graph 的跨模态路由,涵盖 4 个任务组和 18 个细粒度任务,涉及约 750 个项目。为了严格诊断接地行为,我们提出了校准准确率(Calibrated Accuracy,简写为 Cal),该指标在统一评估框架内纳入缺失角色查询,同时奖励正确的接地和适当的拒绝回答。在专用实验中,出现了三个诊断性发现:(i) 开源模型表现出一致的音频与视觉接地差距,RLVR 通过密集的基于规则的监督部分缩小了这一差距;(ii) 可回答召回率和参数规模是不完整的诊断指标,因为高召回率可能与缺失角色幻觉共存,且较大规模的模型并不总能实现更高的 Cal 得分,这暴露出校准是一个独立的评估维度;(iii) SFT 受限于大规模构建标注真值监督的难度,而 RLVR 通过结果层面可验证的反馈实现了更一致泛化,但在我们的奖励设计下,倾向于保守行为并导致生成质量下降。因此,Omni-Persona 作为一个诊断框架,揭示了全模态个性化中的陷阱,指导未来的后训练和奖励设计。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 07:34

论文页面 - Omni-Persona:全模态个性化的系统性基准测试与改进

来源:https://huggingface.co/papers/2605.09996

摘要

Omni-Persona 引入了首个全面的全模态个性化基准测试,包含 Persona Modality Graph(人设模态图)和 Calibrated Accuracy(校准准确率)指标,用于诊断文本、图像和音频模态中的接地(grounding)行为。

尽管多模态大语言模型(https://huggingface.co/papers?q=multimodal%20large%20language%20models)在文本、图像和音频方面取得了进展,但个性化研究仍主要局限于视觉-语言领域,同时涵盖文本、图像和音频的统一全模态基准测试仍然有限,且缺乏方法论的严谨性来处理缺失人设(absent-persona)场景或系统性接地研究。我们引入了 Omni-Persona,这是首个全面的全模态个性化基准测试(https://huggingface.co/papers?q=omnimodal%20personalization)。我们将该任务形式化为在 Persona Modality Graph(https://huggingface.co/papers?q=Persona%20Modality%20Graph)上的跨模态路由(https://huggingface.co/papers?q=cross-modal%20routing),涵盖 4 个任务组和约 750 个项目中的 18 个细粒度任务。为了严格诊断接地行为,我们提出了 Calibrated Accuracy(https://huggingface.co/papers?q=Calibrated%20Accuracy)(\mathrm{Cal}),它在统一评估框架中联合奖励正确接地和适当的不作答,并纳入缺失人设查询。在我们的专用实验中,出现了三个诊断发现:(i)开源模型表现出一致的音频 vs 视觉接地差距(https://huggingface.co/papers?q=audio-vs-visual%20grounding%20gap),RLVR(https://huggingface.co/papers?q=RLVR)通过密集的基于规则的监督部分缩小了这一差距;(ii)可回答召回率和参数规模是不完整的诊断指标,因为强召回率可能与缺失人设幻觉共存,且更大的模型并不总是实现更高的 Cal,这暴露出校准是一个独立的评估维度;(iii)SFT(https://huggingface.co/papers?q=SFT)受限于大规模构建标注真实监督的难度,而 RLVR(https://huggingface.co/papers?q=RLVR)通过结果级别的可验证反馈更一致地泛化,但在我们的奖励设计(https://huggingface.co/papers?q=reward%20design)下倾向于保守行为和较低的生成质量。因此,Omni-Persona 作为一个诊断框架,揭示了全模态个性化(https://huggingface.co/papers?q=omnimodal%20personalization)的陷阱,指导未来的后训练和奖励设计(https://huggingface.co/papers?q=reward%20design)。

查看 arXiv 页面(https://arxiv.org/abs/2605.09996)查看 PDF(https://arxiv.org/pdf/2605.09996)GitHub0(https://github.com/oyt9306/Omni-Persona)添加到收藏集(https://huggingface.co/login?next=%2Fpapers%2F2605.09996)

在您的代理中获取此论文:

hf papers read 2605\.09996

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.09996 以从本页链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.09996 以从本页链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.09996 以从本页链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)以从本页链接。

相似文章

迈向定制化的多模态角色扮演

arXiv cs.LG

本文介绍了 UniCharacter,这是一个用于定制化多模态角色扮演(CMRP)的两阶段训练框架,能够对人设、对话风格和视觉身份进行统一的定制。该研究提出了 RoleScape-20 数据集,并证明了该模型仅需极少数据即可实现连贯的跨模态生成。

超越文本主导:理解全模态大语言模型的模态偏好

Hugging Face Daily Papers

# 论文页面 - 超越文本主导:理解全模态大语言模型的模态偏好 来源:[https://huggingface.co/papers/2604.16902](https://huggingface.co/papers/2604.16902) ## 摘要 研究发现,原生全模态大语言模型表现出相对于文本的视觉偏好,模态偏好在模型中后层逐步涌现,并可用于诊断跨模态幻觉。原生[全模态大语言模型](https://huggingfa

PersonaVLM:长期个性化多模态大语言模型

Hugging Face Daily Papers

PersonaVLM 提出了一种个性化多模态大语言模型框架,通过记忆保留、多轮推理和响应对齐实现长期用户适应,在新推出的 Persona-MME 基准测试中比 GPT-4o 高出 5.2%。