帕累托引导的教师对齐实现公平个性化文本生成
摘要
本文提出了一种帕累托引导的教师对齐方法,用于公平的个性化文本生成,旨在平衡语言模型输出中的多个目标。
arXiv:2606.10126v1 公告类型:新提交
摘要:个性化说服性文本生成可以提高相关性和参与度,但基于人口统计条件的生成可能会在不同群体间引入不平等的表述。我们将个性化生成中的公平性缓解问题视为一个带约束的多目标对齐问题:在保持个性化保真度的同时减少人口统计差异。我们提出了一种帕累托引导的教师对齐框架,该框架结合了基于修订的候选生成、成对感知可行性门控、帕累托式候选选择,以及通过监督微调和直接偏好优化进行的可选偏好优化。我们使用一个受控且上下文丰富的人口统计网格(包含匹配的性别和年龄配对)以及一个统一的五评估套件(涵盖说服偏见、正式性差异、情感框架差异、词汇联想差异和个性化保真度),在气候变化和疫苗接种说服任务上对该框架进行了评估。在两个领域和跨模型家族迁移设置中,没有任何单一对齐策略能同时主导所有目标。相反,不同方法占据了公平性-个性化帕累托前沿的不同区域:一些方法在减少差异方面更强,而另一些则更好地保留了个性化或人口统计稳定性。我们的结果表明,公平性缓解效果依赖于具体目标,并且在不同领域和模型家族中迁移不一致,这促使在公平敏感的个性化生成中采用有界回归、多评估模型选择,而非单指标优化。
查看缓存全文
缓存时间: 2026/06/10 06:10
# Pareto-Guided Teacher Alignment for Fair Personalized Text Generation 来源:https://arxiv.org/abs/2606.10126 文献工具 ## 文献与引文工具 文献浏览器 切换 代码、数据、媒体 ## 本文相关的代码、数据与媒体 演示 ## 演示 相关论文 ## 推荐与搜索工具 关于arXivLabs ## arXivLabs:与社区合作者的实验项目 arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和共享新的 arXiv 功能。 与 arXivLabs 合作的个人和组织都已接受并认同我们的价值观:开放、社区、卓越和用户数据隐私。arXiv 坚守这些价值观,仅与遵守这些价值观的合作伙伴合作。 有一个能为 arXiv 社区增添价值的项目想法?**了解更多关于 arXivLabs** (https://info.arxiv.org/labs/index.html)。
相似文章
PAFO:面向个性化奖励建模的帕累托公平优化
本文提出PAFO,一种帕累托公平优化框架,用于缓解大语言模型奖励模型中的个性化奖励偏差,在不损害多数用户组的情况下提高少数用户组的准确性。
当新生成器到来:基于岭特征迁移的终身机器生成文本归因
本文提出RidgeFT,一个轻量级的分析更新框架,用于终身机器生成文本归因,能够适应新的文本生成器而不遗忘旧的,在多个评估设置中取得了强劲性能。
基于角色的生成式AI多元对齐评估框架
本文提出了一种基于角色的评估框架,利用合成认知档案代表不同人类视角,用于生成式AI的多元对齐,解决了单一基准测试的局限性。
我们的对齐研究方法
OpenAI 阐述了他们的对齐研究方法,强调了强化学习从人类反馈 (RLHF) 作为他们用于对齐已部署语言模型(如 InstructGPT)的主要技术。他们讨论了以最少计算量实现相比大 100 倍模型的显著偏好,但承认当前的局限性,并提出了一项长期战略,即利用 AI 系统来加速人类无法单独实现的对齐研究。
生成式递归教育:即时创建定制交互式教科书。
本文介绍了一种生成式递归方法,用于即时创建定制交互式教科书,动态调整教育内容以适应个体学习者。