Omni-Persona:对全模态个性化进行系统性基准测试与改进
摘要
本文介绍了 Omni-Persona,这是首个涵盖文本、图像和音频的全模态个性化综合基准测试。该基准包含 Persona Modality Graph(角色模态图)以及用于评估接地(grounding)行为的新指标 Calibrated Accuracy(校准准确率)。
查看缓存全文
缓存时间: 2026/05/12 07:34
论文页面 - Omni-Persona:全模态个性化的系统性基准测试与改进
来源:https://huggingface.co/papers/2605.09996
摘要
Omni-Persona 引入了首个全面的全模态个性化基准测试,包含 Persona Modality Graph(人设模态图)和 Calibrated Accuracy(校准准确率)指标,用于诊断文本、图像和音频模态中的接地(grounding)行为。
尽管多模态大语言模型(https://huggingface.co/papers?q=multimodal%20large%20language%20models)在文本、图像和音频方面取得了进展,但个性化研究仍主要局限于视觉-语言领域,同时涵盖文本、图像和音频的统一全模态基准测试仍然有限,且缺乏方法论的严谨性来处理缺失人设(absent-persona)场景或系统性接地研究。我们引入了 Omni-Persona,这是首个全面的全模态个性化基准测试(https://huggingface.co/papers?q=omnimodal%20personalization)。我们将该任务形式化为在 Persona Modality Graph(https://huggingface.co/papers?q=Persona%20Modality%20Graph)上的跨模态路由(https://huggingface.co/papers?q=cross-modal%20routing),涵盖 4 个任务组和约 750 个项目中的 18 个细粒度任务。为了严格诊断接地行为,我们提出了 Calibrated Accuracy(https://huggingface.co/papers?q=Calibrated%20Accuracy)(\mathrm{Cal}),它在统一评估框架中联合奖励正确接地和适当的不作答,并纳入缺失人设查询。在我们的专用实验中,出现了三个诊断发现:(i)开源模型表现出一致的音频 vs 视觉接地差距(https://huggingface.co/papers?q=audio-vs-visual%20grounding%20gap),RLVR(https://huggingface.co/papers?q=RLVR)通过密集的基于规则的监督部分缩小了这一差距;(ii)可回答召回率和参数规模是不完整的诊断指标,因为强召回率可能与缺失人设幻觉共存,且更大的模型并不总是实现更高的 Cal,这暴露出校准是一个独立的评估维度;(iii)SFT(https://huggingface.co/papers?q=SFT)受限于大规模构建标注真实监督的难度,而 RLVR(https://huggingface.co/papers?q=RLVR)通过结果级别的可验证反馈更一致地泛化,但在我们的奖励设计(https://huggingface.co/papers?q=reward%20design)下倾向于保守行为和较低的生成质量。因此,Omni-Persona 作为一个诊断框架,揭示了全模态个性化(https://huggingface.co/papers?q=omnimodal%20personalization)的陷阱,指导未来的后训练和奖励设计(https://huggingface.co/papers?q=reward%20design)。
查看 arXiv 页面(https://arxiv.org/abs/2605.09996)查看 PDF(https://arxiv.org/pdf/2605.09996)GitHub0(https://github.com/oyt9306/Omni-Persona)添加到收藏集(https://huggingface.co/login?next=%2Fpapers%2F2605.09996)
在您的代理中获取此论文:
hf papers read 2605\.09996
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.09996 以从本页链接。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.09996 以从本页链接。
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.09996 以从本页链接。
包含此论文的收藏集 0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以从本页链接。
相似文章
迈向定制化的多模态角色扮演
本文介绍了 UniCharacter,这是一个用于定制化多模态角色扮演(CMRP)的两阶段训练框架,能够对人设、对话风格和视觉身份进行统一的定制。该研究提出了 RoleScape-20 数据集,并证明了该模型仅需极少数据即可实现连贯的跨模态生成。
超越文本主导:理解全模态大语言模型的模态偏好
# 论文页面 - 超越文本主导:理解全模态大语言模型的模态偏好 来源:[https://huggingface.co/papers/2604.16902](https://huggingface.co/papers/2604.16902) ## 摘要 研究发现,原生全模态大语言模型表现出相对于文本的视觉偏好,模态偏好在模型中后层逐步涌现,并可用于诊断跨模态幻觉。原生[全模态大语言模型](https://huggingfa
PersonaVLM:长期个性化多模态大语言模型
PersonaVLM 提出了一种个性化多模态大语言模型框架,通过记忆保留、多轮推理和响应对齐实现长期用户适应,在新推出的 Persona-MME 基准测试中比 GPT-4o 高出 5.2%。
EmoS:面向细粒度流式情感理解的高保真多模态基准
本文介绍了 EmoS,这是一个专为细粒度流式情感理解设计的高保真多模态基准,旨在解决现有数据集中存在的生态效度不足和标注可靠性低的问题。
衡量关键指标:医疗保健中生成式、多模态及智能体AI的基准测试
本文提出了一个针对医疗保健领域生成式、多模态及智能体AI进行基准测试的结构化框架,旨在解决高基准得分与实际临床可靠性、安全性和相关性之间的差距。