引导用户行为实现个性化多模态生成
摘要
本文提出NaviGen框架,通过双标识符和两阶段SFT+RL流水线将用户行为编码为可执行指令,实现个性化多模态内容生成,在商品、游戏和短视频领域提升了个性化效果。
arXiv:2606.24196v1 公告类型:新
摘要:现代AIGC流水线能够生成高保真图像和视频,但前提是用户提供结构良好的创作指令,而终端用户很少能清晰描述视觉细节,导致生成结果与用户需求不匹配。我们研究个性化内容生成,即将用户交互历史转化为下游合成模型可执行的指令,并识别出两个障碍:行为必须编码为语言推理可读的形式,且模型必须具备从预训练和行为数据中缺失的指令撰写能力。我们提出NaviGen,通过为每个物品分配双标识符(协同编码与文本编码),在一个词元流中同时充当行为基座和语义桥梁。基于该表示,两阶段SFT+RL流水线首先从进化搜索的监督信号中蒸馏偏好推理与指令撰写能力,然后通过层次化与自一致性奖励使生成结果与用户意图对齐。在商品、游戏和短视频领域上的实验表明,NaviGen改进了个性化图像和视频生成,增强了下一物品预测,并生成了更具体、相关且可视觉生成的指令。我们的代码已匿名发布在:https://github.com/iLearn-Lab/NaviGen。
查看缓存全文
缓存时间: 2026/06/24 07:45
# 用户行为导航实现个性化多模态生成 来源: https://arxiv.org/html/2606.24196 周恒吉1∗, 刘玉峰1∗, 刘烨1, 徐勇1, 夏良浩2†, 聂礼强2 1华南理工大学 2哈尔滨工业大学(深圳) [email protected], [email protected], [email protected], [email protected], [email protected], [email protected] ###### 摘要 现代AIGC流程能生成高保真图像和视频,但前提是需要一条结构良好的创作指令,而终端用户很少能清晰表述视觉细节,导致生成器与用户需求不匹配。我们研究**个性化内容生成**,它旨在将用户的交互历史转化为可供下游合成模型执行的一条指令。在此过程中我们识别出两大障碍:行为必须被编码成语言推理可解析的形式;以及模型必须获取在预训练和行为数据中均缺乏的指令撰写能力。我们提出**NaviGen**,为每个物品赋予双重标识符——一个协同编码和一个文本编码——作为行为基板与语义桥梁,统一于一个令牌流中。基于该表示,一个两阶段SFT+RL流程首先从进化搜索得到的监督信号中蒸馏出偏好推理与指令撰写能力,然后通过分层和自一致奖励将生成结果与用户意图对齐。在产品、游戏和短视频领域的实验表明,NaviGen改进了个性化图像和视频生成,增强了下一物品预测,并生成了更具体、更相关、且视觉上可生成的指令。我们的代码已开源:https://github.com/iLearn-Lab/NaviGen。 用户行为导航实现个性化多模态生成 周恒吉1∗, 刘玉峰1∗, 刘烨1, 徐勇1, 夏良浩2†, 聂礼强2 1华南理工大学 2哈尔滨工业大学(深圳) [email protected], [email protected], [email protected], [email protected], [email protected], [email protected] 1∗周恒吉与刘玉峰对本文贡献均等。2†夏良浩为通讯作者。 ## 1 引言 多模态内容生成,例如文生图海报和短视频,正迅速成为媒体、营销和电子商务的核心生产力层(Xu等,2025 (https://arxiv.org/html/2606.24196#bib.bib28);Ling等,2026 (https://arxiv.org/html/2606.24196#bib.bib26))。现代创作流程先用语言模型精炼一条文本指令,再通过文生视觉生成器将其渲染成图像或视频(Yang等,2025 (https://arxiv.org/html/2606.24196#bib.bib20);Seedance等,2026 (https://arxiv.org/html/2606.24196#bib.bib21)),其中指令充当着控制“生成什么”和“如何呈现”的核心信号。 该流程的最新进展大致可分为三条路线。 *(i) 生成骨干:* 扩散模型和自回归Transformer在文生图和文生视频任务中可以从文本提示词生成高保真渲染结果(Yang等,2025 (https://arxiv.org/html/2606.24196#bib.bib20);Seedance等,2026 (https://arxiv.org/html/2606.24196#bib.bib21))。 *(ii) 指令丰富:* 基于LLM的提示词扩展和多智能体创作系统将简短的用户输入转化为详细、结构化的指令,以更好地利用生成器的能力(Xu等,2025 (https://arxiv.org/html/2606.24196#bib.bib28);An等,2026 (https://arxiv.org/html/2606.24196#bib.bib27);Dang等,2026 (https://arxiv.org/html/2606.24196#bib.bib14))。 *(iii) 条件控制:* 基于参考图、布局或身份条件的生成注入外部信号,实现对输出的精细控制(Zhao等,2025b (https://arxiv.org/html/2606.24196#bib.bib25);Ling等,2026 (https://arxiv.org/html/2606.24196#bib.bib26))。 参见图注 图1:个性化多模态内容生成。 然而,所有这些方法都假设**输入一条结构良好的创作指令**,留下一个根本问题未解:*内容实际上是为谁的品味而生成?* 最终消费者品味千差万别,且很少能清晰表述视觉细节,而内容能否引起他们的共鸣才是最终决定因素。如果没有从用户信号到具体指令的路径,即使是最强大的生成器也只能产生泛化或与实际需求不匹配的内容。这一差距激发了我们称之为**个性化内容生成**的新问题:将用户隐式的行为历史转化为一条创作指令,从而引导下游生成器生成用户真正想要的内容。 实现这一范式在语言模型的输入侧和输出侧分别提出了两个核心挑战。 *(C1) 行为与语言之间的表示差距。* 用户的行为历史必须被编码为语言模型可以推理的形式,但单一表示难以胜任:基于ID的编码保留了行为结构,但在语言模型的语义空间中不透明;而纯文本元数据虽富有表现力却过于冗长,容易诱使模型去复述历史而非推断偏好。一个可行的表示必须同时携带行为信号并保持语言可推理性。 *(C2) 理解偏好与撰写指令之间的能力差距。* 即使有了这样的表示,“知道用户喜欢什么”与“撰写一条好的创作指令”是两种截然不同的技能——后者既未在语言预训练中培养,也未在用户行为数据中体现,使得模型缺乏获取该能力的自然来源。 我们提出NaviGen,其两大核心设计分别对应上述挑战。为弥合表示差距(C1),NaviGen采用**双重标识符**方案为每个物品编码:协同标识符(CID)通过残差向量量化捕获其在行为交互中的角色;文本标识符(TID)将其文本语义压缩为有序的标准化术语。两者共同为语言模型在单一令牌流中提供了一个紧凑的行为基板和一个可控的语言桥梁。为弥合能力差距(C2),NaviGen采用**两阶段SFT+RL**流程。SFT阶段从经过LLM评判器的进化搜索合成的“历史→指令”监督信号中学习,教会模型推理偏好演化而非复述历史。RL阶段联合优化两个互补奖励:一个用于偏好正确性的分层CID奖励,以及一个定义在生成指令、预测目标语义和真实目标语义之间的三角指令感知奖励,共同推动模型生成可供生成的指令。 我们的贡献总结如下: - • 我们提出NaviGen,一个统一框架,将用户行为序列转化为供个性化AIGC使用的、可生成的创作指令,在单一流程中桥接了行为建模与可控内容生成。 - • 我们引入双重标识符表示,将残差量化得到的CID与有序、长度灵活的TID结合,在单一令牌流内共同提供紧凑的行为基板与可控的语义桥梁。 - • 我们设计了一个两阶段SFT+RL流程,无需人工撰写指令:带LLM评判器的进化搜索合成监督信号,GRPO则利用分层CID奖励和三角指令感知奖励来实现闭环自一致性。 - • 在产品、游戏和短视频领域,NaviGen持续改善了个性化图像和视频生成质量、CID空间中的下一物品预测精度以及指令的具体性、相关性和视觉可生成性。 ## 2 预备知识 **个性化内容生成。** 我们考虑面向消费者的个性化AIGC场景,其中多模态生成模型合成针对个体用户量身定制的视觉内容。给定一条文本创作指令`I ∈ T`,一个现成的生成器`g_φ`产生最终输出: `O = g_φ(I)`, (1) 其中`O ∈ Y`表示目标模态空间(如图像或视频)中的生成内容,且`g_φ`在训练期间保持不变。在此设定下,个性化生成的质量根本上受限于指令`I`的质量,而终端消费者无法被期望手动撰写这样的指令。这促使需要一个自动指令生成器`f_θ`来代表用户产生`I`。 **行为作为隐式偏好证据。** 为了驱动`f_θ`朝向用户特定的生成,我们将用户观察到的交互历史作为视觉偏好的隐式信号。对于给定用户,我们将该历史记为一个有序序列 `H_u = ⟨x_1, x_2, ..., x_n⟩`, (2) 其中每个`x_k`是用户之前互动过的物品(例如,点击、观看或购买过),并与其视觉和语义属性相关联。我们将`H_u`视为**偏好证据**:从中可以推断用户的潜在视觉品味,并将其投射到未来的创作方向上。 **任务形式化:行为条件化的指令生成。** 给定用户历史`H_u`,我们的目标是学习一个指令生成器`f_θ`,使其产生自由形式的文本指令: `I = f_θ(H_u), max_θ P_θ(I | H_u)`。 (3) 我们说指令`I`是**可生成的**,如果它满足两个属性:(1) **偏好对齐**:`I`忠实捕获了`H_u`所体现的用户特定视觉偏好;(2) **生成可行性**:`I`足够具体且视觉上可落地,可作为下游生成器`g_φ`的有效条件信号。本文的目标是设计`f_θ`,使得对于任意用户历史,它都能一致地输出可生成的指令,从而桥接隐式用户行为与高质量个性化视觉合成。 ## 3 方法 本节介绍NaviGen的技术细节,总体架构如图2所示。 ### 3.1 双重标识符行为编码 为了使用户行为`H_u`可被LLM解析,`H_u`中的每个条目`x_k`必须序列化为模型词汇表中的令牌。一个简单的方法是直接使用标题或元数据,但这会过于冗长并注入冗余噪声,从而减缓优化并模糊偏好信号。因此,我们使用紧凑的**双重标识符**对每个条目进行编码,将序列级身份与语义基础解耦,使得两者互不干扰。 **协同标识符(CID)。** 受协同过滤LLM的启发(Deng等,2025 (https://arxiv.org/html/2606.24196#bib.bib1)),CID编码一个条目在用户交互序列中的角色,提炼在消费者-内容交互图上观察到的协同模式。首先通过预训练嵌入模型`ψ`将其元数据`m_v`映射为连续嵌入`e_v = ψ(m_v)`,然后通过多层残差K-Means过程进行量化: `s_l = argmin_k ‖r_l - c_l^k‖^2, r_{l+1} = r_l - c_l^{s_l}`, (4) 其中`r_1 = e_v`,`c_l^k`是第`l`层码本中的第`k`个质心,`s_l ∈ {1, ..., K_cb}`是分配给第`l`层的离散码。得到的CID是一个三级残差令牌序列: `cid(v) = ⟨s_1(v), s_2(v), s_3(v)⟩`。 (5) 这种层级结构支持多粒度建模和部分正确监督,因为匹配任意一层都会产生有意义的信号。每个CID令牌被添加至词汇表,并通过专门的嵌入训练进行初始化(第3.2.1节)。 **文本标识符(TID)。** 与现有工作将TID视为固定长度目标用于下一物品预测不同(Zhang等,2026 (https://arxiv.org/html/2606.24196#bib.bib30)),我们注意到语义上等价的文本变体可能对应不同术语,使得精确的下一TID预测过于严格;同时,不同条目的语义复杂度各异,因此需要不同数量的术语。我们因此构建可变长度TID,仅对术语数量施加一个上界: `tid(v) = [t_1, t_2, ..., t_m], m ≤ 10`, (6) 其中每个`t_k`是一个简洁短语,捕捉核心语义维度(例如,主题类别、关键属性)。术语按重要性排序,通过LLM在受控输出约束下压缩原始标题生成。与自由形式文本不同,TID提供了一个紧凑、去重且领域稳定的语义签名,作为序列级偏好建模与指令生成之间的桥梁。 参见图注 图2:提出的NaviGen框架用于个性化多模态生成的总体架构。 ### 3.2 推理融合的监督微调 NaviGen采用两阶段监督微调,从标识符嵌入逐步构建至具备完整推理能力的生成。 #### 3.2.1 冷启动嵌入初始化 为防止随机初始化的CID嵌入通过噪声梯度破坏预训练权重,我们将表示获取与骨干适应解耦:冻结所有预训练权重,仅更新与新令牌相关的参数。令`D_init`为辅助训练集,包含令牌序列`s_i`和目标令牌`y_i`。嵌入初始化损失为: `L_init = -∑_i ∑_t log p(y_{i,t} | s_{i,<t}; E_CID, W_out)`, (7) 其中`E_CID`和`W_out`分别是可学习的CID嵌入和输出投影层。三个辅助任务建立了双向CID-TID对齐: **CID2TID**:将CID映射到对应的TID,将行为码接地到语义术语。 **TID2CID**:反向TID到CID映射,从语义信号构建行为标识符。 **CID2CID**:从历史CID预测目标CID,捕捉序列行为模式。 #### 3.2.2 推理增强的全参数微调 初始化阶段使模型获得了稳定的CID,但行为条件化指令生成所必需的两个能力仍然缺失:(i) 将推断出的偏好转化为可生成的指令;(ii) 推理用户兴趣在交互历史中的演变方式。为注入这两种能力,我们解冻所有参数,并在现有目标上增加一个新的**CID2INS**任务以及思维链(Chain-of-Thought)推理。
相似文章
迈向定制化的多模态角色扮演
本文介绍了 UniCharacter,这是一个用于定制化多模态角色扮演(CMRP)的两阶段训练框架,能够对人设、对话风格和视觉身份进行统一的定制。该研究提出了 RoleScape-20 数据集,并证明了该模型仅需极少数据即可实现连贯的跨模态生成。
从多模态经验中学会学习
本文介绍了AutoMMemo,一个使多模态智能体能够自动设计记忆机制(可表达为可执行的备忘录程序)以从多模态交互轨迹中学习的框架,在GUI/Web导航和视觉推理基准上优于无记忆和固定记忆基线。
通过自动具身对话增强推进DialNav发展
本文提出了一种自动生成流水线,为DialNav创建大规模训练数据集(RAINbow)。DialNav是一种基于对话的视觉与语言导航任务。结合双策略训练和定位模型,该方法在基线上取得了显著提升。
PersonaVLM:长期个性化多模态大语言模型
PersonaVLM 提出了一种个性化多模态大语言模型框架,通过记忆保留、多轮推理和响应对齐实现长期用户适应,在新推出的 Persona-MME 基准测试中比 GPT-4o 高出 5.2%。
PresentAgent-2: 迈向通用多模态演示代理
PresentAgent-2 是一个智能体框架,通过开展调研、创建多模态幻灯片并生成跨单人、讨论和互动模式的交互式内容,根据用户查询生成演示视频。