帕累托引导的教师对齐实现公平个性化文本生成

arXiv cs.CL 论文

摘要

本文提出了一种帕累托引导的教师对齐方法,用于公平的个性化文本生成,旨在平衡语言模型输出中的多个目标。

arXiv:2606.10126v1 公告类型:新提交 摘要:个性化说服性文本生成可以提高相关性和参与度,但基于人口统计条件的生成可能会在不同群体间引入不平等的表述。我们将个性化生成中的公平性缓解问题视为一个带约束的多目标对齐问题:在保持个性化保真度的同时减少人口统计差异。我们提出了一种帕累托引导的教师对齐框架,该框架结合了基于修订的候选生成、成对感知可行性门控、帕累托式候选选择,以及通过监督微调和直接偏好优化进行的可选偏好优化。我们使用一个受控且上下文丰富的人口统计网格(包含匹配的性别和年龄配对)以及一个统一的五评估套件(涵盖说服偏见、正式性差异、情感框架差异、词汇联想差异和个性化保真度),在气候变化和疫苗接种说服任务上对该框架进行了评估。在两个领域和跨模型家族迁移设置中,没有任何单一对齐策略能同时主导所有目标。相反,不同方法占据了公平性-个性化帕累托前沿的不同区域:一些方法在减少差异方面更强,而另一些则更好地保留了个性化或人口统计稳定性。我们的结果表明,公平性缓解效果依赖于具体目标,并且在不同领域和模型家族中迁移不一致,这促使在公平敏感的个性化生成中采用有界回归、多评估模型选择,而非单指标优化。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:10

# Pareto-Guided Teacher Alignment for Fair Personalized Text Generation  
来源:https://arxiv.org/abs/2606.10126  
文献工具  

## 文献与引文工具  

文献浏览器 切换  

代码、数据、媒体  

## 本文相关的代码、数据与媒体  

演示  

## 演示  

相关论文  

## 推荐与搜索工具  

关于arXivLabs  

## arXivLabs:与社区合作者的实验项目  

arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和共享新的 arXiv 功能。  

与 arXivLabs 合作的个人和组织都已接受并认同我们的价值观:开放、社区、卓越和用户数据隐私。arXiv 坚守这些价值观,仅与遵守这些价值观的合作伙伴合作。  

有一个能为 arXiv 社区增添价值的项目想法?**了解更多关于 arXivLabs** (https://info.arxiv.org/labs/index.html)。

相似文章

我们的对齐研究方法

OpenAI Blog

OpenAI 阐述了他们的对齐研究方法,强调了强化学习从人类反馈 (RLHF) 作为他们用于对齐已部署语言模型(如 InstructGPT)的主要技术。他们讨论了以最少计算量实现相比大 100 倍模型的显著偏好,但承认当前的局限性,并提出了一项长期战略,即利用 AI 系统来加速人类无法单独实现的对齐研究。