SocialPersona：基于多模态社交媒体上下文的个性化画像与对话基准

arXiv cs.CL 2026/06/26 04:00 论文

benchmark personalization multimodal social-media profiling mllm evaluation

摘要

介绍了SocialPersona，一个评估多模态大语言模型从纵向社交媒体时间线中恢复显性偏好并将其用于个性化对话能力的基准。

arXiv:2606.26654v1 公告类型：新摘要：个性化语言模型助手通常通过记忆能力进行评估：模型能否回忆用户在对话中明确陈述的偏好？更全面的个性化需要更高的能力——从用户自然留下的多模态痕迹中推断出他们所关心的事物。我们提出了SocialPersona，一个用于评估多模态大语言模型（MLLMs）能否从纵向社交媒体时间线中恢复显性偏好并在对话中使用这些偏好的基准。SocialPersona基于171名普通非促销社交媒体用户的纵向时间线构建，包含文本、图像、时间戳以及跨七个兴趣领域的2,597个人工验证的偏好标签，将稳定兴趣与近期兴趣区分开来。它支持两项任务：从多模态上下文中构建结构化的用户画像，以及生成与推断画像相一致的回应。对专有和开源权重MLLMs的实验表明，模型能够识别广泛的兴趣领域，但在细粒度和近期兴趣上的性能下降，并且在必须使用推断画像来个性化对话时性能进一步下降。结合文本和图像提供互补偏好信号的证据，这些结果表明，稳健的跨模态长时序用户建模仍然是一个关键挑战，而SocialPersona可以帮助衡量和推动助手在推断并依据显性偏好采取行动方面的进展。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:18

# SocialPersona：基于多模态社交媒体上下文的个性化画像与回复基准测试
来源：https://arxiv.org/html/2606.26654
Qinkai Zhang¹, Yanyan Zhao¹, Xin Lu¹, Yulin Hu¹, Pengtao Han¹, Bing Qin¹
¹哈尔滨工业大学
\{qkzhang, yyzhao\}@ir\.hit\.edu\.cn
###### 摘要
个性化语言模型助手通常通过记忆能力进行评估：模型能否回忆用户在对话中明确陈述的偏好？更全面的个性化需要一种更难的能力——从用户自然留下的多模态痕迹中推断出他们关心什么。我们提出**SocialPersona**，一个用于评估多模态大语言模型（MLLMs）能否从纵向社交媒体时间线中恢复揭示偏好，并在对话中使用这些偏好的基准测试。SocialPersona基于171位日常非推广社交媒体用户的纵向时间线构建，包含文本、图像、时间戳以及跨七个兴趣领域的2,597个人工验证偏好标签，将稳定兴趣与近期兴趣区分开来。它支持两项任务：从多模态上下文中构建结构化用户画像，以及生成与推断画像一致的回应对齐。对专有和开源MLLMs的实验表明，模型能够识别广泛的兴趣领域，但在细粒度和近期兴趣上的表现下降，并且在需要将推断画像用于个性化对话时进一步退化。结合文本和图像提供互补偏好信号的证据，这些结果表明，稳健的跨模态、长时域用户建模仍然是一个关键挑战，而SocialPersona可以帮助衡量和推动助手在推断和响应揭示偏好方面的进展。

---

# SocialPersona：基于多模态社交媒体上下文的个性化画像与回复基准测试
Qinkai Zhang¹, Yanyan Zhao¹††thanks:通讯作者。, Xin Lu¹, Yulin Hu¹, Pengtao Han¹, Bing Qin¹
¹哈尔滨工业大学
\{qkzhang, yyzhao\}@ir\.hit\.edu\.cn

## 1 引言

参见图注图1：用户的社交媒体时间线提供文本、视觉和时间证据，用于稳定兴趣和近期兴趣，可指导对新的查询进行个性化回复。

个性化助手越来越需要顾及用户的长期兴趣、近期活动和隐含偏好（Chen et al.，2024（https://arxiv.org/html/2606.26654#bib.bib6）；Liu et al.，2025（https://arxiv.org/html/2606.26654#bib.bib25）；Purificato et al.，2024（https://arxiv.org/html/2606.26654#bib.bib35））。然而，现有基准主要测试模型是否能记住用户在对话中明确陈述的偏好，强调*记忆*而非*洞察*。在实践中，偏好通常通过用户创建、分享、拍摄、讨论和反复参与的内容间接揭示（He et al.，2023（https://arxiv.org/html/2606.26654#bib.bib15）；Huang et al.，2026（https://arxiv.org/html/2606.26654#bib.bib16））。社交媒体时间线提供此类信号的丰富来源，但恢复它们需要随时间聚合多模态证据，区分稳定爱好与近期兴趣，并在个性化互动中应用推断出的画像。图1（https://arxiv.org/html/2606.26654#S1.F1）说明了时间线证据如何转化为对话中的稳定和近期兴趣。

先前的基准大多将用户上下文表示为对话衍生的明确偏好（Salemi et al.，2023（https://arxiv.org/html/2606.26654#bib.bib39）；Zhao et al.，2025a（https://arxiv.org/html/2606.26654#bib.bib46）；Jiang et al.，2025a（https://arxiv.org/html/2606.26654#bib.bib17）；Zhao et al.，2025b（https://arxiv.org/html/2606.26654#bib.bib47））。尽管近期工作纳入了更长的行为历史（Huang et al.，2026（https://arxiv.org/html/2606.26654#bib.bib16）），但仍依赖合成或结构化的文本日志。这些设置绕过了MLLM的一个关键挑战：从嘈杂、非结构化的纵向社交媒体痕迹中推断用户兴趣，其中证据较弱、分布在多个帖子中，并且通常仅通过图像、时间戳或跨帖子模式提供。我们提出**SocialPersona**，一个评估*来自多模态社交媒体上下文的MLLM个性化*的基准。SocialPersona基于日常非推广用户的真实时间线构建，包含按时间顺序组织的文本、图像和时间戳。从这些时间线中，我们构建了涵盖七个领域的人工验证兴趣画像：体育与户外活动、娱乐、游戏、餐饮、旅行与城市探索、摄影与创作、宠物。每个画像将稳定兴趣与近期兴趣区分开来，并将其与支持证据相关联。SocialPersona支持两种评估设置。在*画像构建*中，模型从原始多模态时间线推断活跃领域和细粒度兴趣标签。在*个性化对话生成*中，模型接收社交媒体上下文和当前请求，并评估其回复是否与用户的稳定或近期兴趣一致。这些任务共同测试MLLM是否既能恢复隐含偏好，又能将其用于下游交互。

具体来说，SocialPersona包含171位真实用户的时间线，每位用户平均有176.81条帖子和130.38张图像。一个半自动化流程加上人工验证，得到2,597个基于文本、视觉和时间证据的偏好标签。对专有和开源MLLMs的实验表明，当前模型在推断细粒度和近期兴趣以及持续使用推断画像进行个性化回复方面仍存在困难。

我们的贡献有三点：
1. 我们提出一个新的任务框架，挑战MLLMs从纵向、多模态社交媒体行为中推断用户偏好——跨长时域聚合稀疏的文本、视觉和时间信号——并将推断的偏好应用于个性化对话生成。
2. 我们构建了SocialPersona，一个基于真实用户的基准，包含长时域时间线、多模态证据、时间戳以及跨七个领域的人工验证画像，并公开发布基准代码以及一个去标识化的评估子集¹¹¹可在https://anonymous.4open.science/r/socialpersona-6E9B获取。原始图像已排除以降低重新识别风险。合格研究人员可申请受控访问完整基准以进行复现和后续研究；详情请联系作者qkzhang@ir\.hit\.edu\.cn。。
3. 我们评估了专有和开源MLLMs在画像构建和个性化对话生成方面的表现，揭示了跨模态证据聚合和用户对齐回复生成方面的差距。

## 2 相关工作

基准上下文来源多模态真实数据揭示偏好画像评估对话评估
LaMP（Salemi et al.，2023（https://arxiv.org/html/2606.26654#bib.bib39））用户文本历史×\\times✓×\\times×\\times×\\times×\\times
PrefEval（Zhao et al.，2025a（https://arxiv.org/html/2606.26654#bib.bib46））对话历史×\\times×\\times×\\times×\\times×\\times✓
PERSONAMEM（Jiang et al.，2025a（https://arxiv.org/html/2606.26654#bib.bib17），b（https://arxiv.org/html/2606.26654#bib.bib18））对话历史✓×\\times×\\times×\\times✓✓
Mem-PAL（Huang et al.，2026（https://arxiv.org/html/2606.26654#bib.bib16））行为日志 + 对话×\\times×\\times✓✓✓
ALPBench（Ren et al.，2026（https://arxiv.org/html/2606.26654#bib.bib38））电商行为×\\times✓✓✓×\\times
GISTBench（Fostiropoulos et al.，2026（https://arxiv.org/html/2606.26654#bib.bib9））短视频参与×\\times×\\times✓✓×\\times
**SocialPersona（我们的）**用户社交媒体时间线✓✓✓✓✓

表1：个性化基准在上下文来源、模态、数据来源、偏好来源和评估目标方面的比较。“真实数据”表示有机积累的用户生成证据；“揭示偏好”表示从行为痕迹推断的偏好信号。SocialPersona是唯一覆盖多模态真实用户社交媒体时间线、揭示偏好以及画像和对话评估的基准。

### 2.1 个性化基准

近期的个性化基准主要从对话历史或结构化行为日志构建用户上下文。LaMP（Salemi et al.，2023（https://arxiv.org/html/2606.26654#bib.bib39））评估基于用户特定文本历史的个性化语言任务，而PrefEval（Zhao et al.，2025a（https://arxiv.org/html/2606.26654#bib.bib46））、PersonaMem（Jiang et al.，2025a（https://arxiv.org/html/2606.26654#bib.bib17））和PersonaLens（Zhao et al.，2025b（https://arxiv.org/html/2606.26654#bib.bib47））研究对话上下文中的偏好识别、用户记忆和个性化回复生成。更近期的基准转向更长期的行为建模，包括用于行为日志为基础对话的Mem-PAL（Huang et al.，2026（https://arxiv.org/html/2606.26654#bib.bib16））以及用于电商或短视频兴趣推断的ALPBench（Ren et al.，2026（https://arxiv.org/html/2606.26654#bib.bib38））/ GISTBench（Fostiropoulos et al.，2026（https://arxiv.org/html/2606.26654#bib.bib9））。面向Agent的基准进一步将个性化扩展到搜索、网页和移动环境（Kim et al.，2025（https://arxiv.org/html/2606.26654#bib.bib21）；Cai et al.，2025（https://arxiv.org/html/2606.26654#bib.bib4）；Kim et al.，2026（https://arxiv.org/html/2606.26654#bib.bib22）；Yang et al.，2026（https://arxiv.org/html/2606.26654#bib.bib42）；Chen et al.，2026（https://arxiv.org/html/2606.26654#bib.bib7））。如表1（https://arxiv.org/html/2606.26654#S2.T1）所总结，SocialPersona与先前基准的不同之处在于，它在同一设置中结合了多模态输入、真实用户数据、揭示偏好信号、画像评估和对话评估。

### 2.2 多模态社交媒体理解

先前的多模态社交媒体数据集研究内容层面的任务，如情感和影响分析（Niu et al.，2016（https://arxiv.org/html/2606.26654#bib.bib29）；Yu and Jiang，2019（https://arxiv.org/html/2606.26654#bib.bib44）；Sharma et al.，2020（https://arxiv.org/html/2606.26654#bib.bib40））、讽刺与幽默检测（Cai et al.，2019（https://arxiv.org/html/2606.26654#bib.bib5））、危机响应（Alam et al.，2018（https://arxiv.org/html/2606.26654#bib.bib1））、虚假信息验证（Shu et al.，2020（https://arxiv.org/html/2606.26654#bib.bib41）；Nakamura et al.，2020（https://arxiv.org/html/2606.26654#bib.bib27）；Nielsen and McConville，2022（https://arxiv.org/html/2606.26654#bib.bib28）；Mishra et al.，2022（https://arxiv.org/html/2606.26654#bib.bib26）；Yao et al.，2023（https://arxiv.org/html/2606.26654#bib.bib43））、有害内容识别（Kiela et al.，2021（https://arxiv.org/html/2606.26654#bib.bib20）；Lin et al.，2025（https://arxiv.org/html/2606.26654#bib.bib24））以及社交网络场景下的广泛MLLM评估（Zhang et al.，2024（https://arxiv.org/html/2606.26654#bib.bib45）；Jin et al.，2024（https://arxiv.org/html/2606.26654#bib.bib19）；Guo et al.，2025（https://arxiv.org/html/2606.26654#bib.bib14））。然而，这些基准主要针对预定义任务对单个帖子或互动进行标注。用户相关信号（如有）通常被视为人口统计属性、参与度预测或推荐目标。相比之下，SocialPersona将用户的时间线视为外部个性化上下文：模型必须跨多个帖子聚合稀疏的文本、视觉和时间证据，区分稳定兴趣与近期兴趣，并生成与推断画像一致的回复。

## 3 SocialPersona构建

### 3.1 问题设置

我们研究MLLMs能否从社交媒体时间线中推断并使用偏好。对于每个用户\(u\)，一个按时间排序的时间线\(\mathcal{S}_u = \langle p_1, \dots, p_n \rangle\)由帖子\(p_i = (x_i, v_i, \tau_i)\)组成，包含文本\(x_i\)、视觉内容\(v_i\)和时间戳\(\tau_i\)，时间跨度最多200篇帖子，覆盖两年。我们在七个兴趣领域上定义画像，这些领域改编自先前的偏好分类（Zhao et al.，2025a（https://arxiv.org/html/2606.26654#bib.bib46））和平台层面的兴趣类别：\{\{sports\_outdoor, entertainment, gaming, food\_drink, travel\_city\_exploration, photography\_creation, pets\}\}。对于每个活跃领域，黄金画像包含稳定兴趣（时间线上的重复模式）、近期兴趣（观察窗口末端附近出现或时间局部的信号）以及为可审计性保留的支持证据链接。我们排除人口统计、身份相关、健康、政治和其他敏感属性。

SocialPersona支持两个任务。在**画像构建**中，模型从用户时间线预测稳定和近期兴趣标签。在**个性化对话生成**中，模型接收时间线以及一个自然用户请求，并生成与用户稳定或近期兴趣一致的回复。整体构建和评估流程如图2（https://arxiv.org/html/2606.26654#S3.F2）所示：SocialPersona首先将原始社交媒体时间线转换为人工验证的稳定和近期兴趣画像，然后评估MLLMs能否恢复这些画像并将其用于个性化对话。

参见图注图2：SOCIALPERSONA概述。SOCIALPERSONA通过用户过滤、帖子级兴趣提取、跨帖子聚合、时间画像、LLM校准和人工验证，从真实多模态社交媒体时间线构建，生成包含稳定和近期兴趣的黄金画像。该基准评估MLLMs在两个任务上的表现：从社交媒体时间线推断用户画像（通过领域激活和兴趣标签F1衡量），以及生成个性化对话回复（针对稳定兴趣推荐和近期兴趣探索，通过兴趣覆盖度、具体性和流畅度判断）。

### 3.2 用户和时间线收集

我们从*长尾有机用户*的真实社交媒体时间线构建SocialPersona，而非名人、品牌账号或高度策划的公共简介。此设计选择旨在捕捉相对自然、自我表达的偏好痕迹，而非广播导向的内容。从8,000个候选账号开始，我们基于粉丝数、粉丝-关注比和图像痕迹密度应用自动过滤器，保留粉丝数在5-5,000之间、FFR在\[0.5, 2\]之间、ITDR≥0.3的账号。这些过滤器去除了极端稀疏、高度公共或不够多模态的账号，同时减少了广播型用户的存在（Oshimo et al.，2022（https://arxiv.org/html/2606.26654#bib.bib34）；Leavitt et al.，2009（https://arxiv.org/html/2606.26654#bib.bib23））。然后我们手动检查剩余账号，排除商业、过度转发或低质量案例，最终得到250个候选用户。FFR、ITDR的详细定义以及手动过滤标准见附录B（https://arxiv.org/html/2606.26654#A2）。

对于每个选定的用户，我们收集最近两年窗口内最多200篇帖子。每篇帖子存储为结构化的多模态记录，包含时间戳、文本内容、话题标签、URLs以及附带的视觉内容（包括图像或视频封面帧）。由于原始帖子来自多个国家和语言的用户，我们通过将所有文本内容翻译成英语来标准化，从而确保一致的画像构建和评估。在画像构建和验证之后，我们进一步移除活跃兴趣领域少于三个的用户，因为此类简介可能过于稀疏而无法提供有意义的个性化上下文。

SocialPersona：基于多模态社交媒体上下文的个性化画像与对话基准

相似文章

Omni-Persona：对全模态个性化进行系统性基准测试与改进

PersonaArena：用于评估和增强大语言模型中人格层面角色扮演的动态模拟框架

PersonaVLM：长期个性化多模态大语言模型

城市感知中多模态大语言模型代理生成解释的角色效应分析

在长期用户交互中个性化具身多模态大语言模型智能体

提交意见反馈