一致性最大化提升多元对齐
摘要
本文引入内部一致性最大化(ICM)方法,无需人工监督即可生成针对特定角色的示例,用于将AI与多样化的人类价值观对齐,并证明一致性示例在多个基准测试中具有更好的泛化能力。
arXiv:2606.03110v1 Announce Type: new
摘要:将AI系统与多样化的人类价值观对齐需要基于具体示例的价值规范,但如何在无需大量人工监督的情况下生成此类示例仍是一个开放挑战。我们研究了这些示例的有效性因素,采用内部一致性最大化(ICM)方法——通过最大化标签间的相互可预测性来推断标签——生成针对特定角色的示例,使模型趋向目标群体的价值观,且无需人工监督。在涵盖分类、偏好和开放式生成的四个基准测试中,ICM推断的上下文示例达到了与真实标签相当的性能。关键的是,一致性的重要性超越了单个标签的准确性:在准确性保持不变的情况下,一致性更高的示例相比不一致的示例具有显著更好的泛化能力。对于预训练数据中代表性不足的角色,在模型对角色价值观最不确定的问题上提供针对性的人类反馈,比在任意问题上提供相同数量的标签能实现更好的泛化。这些结果将一致性确定为可扩展价值规范的关键设计原则,充分利用了预训练语言模型中已编码的多样化人类视角。
查看缓存全文
缓存时间: 2026/06/03 09:37
# 内部一致性最大化提升多元化对齐
来源:https://arxiv.org/html/2606.03110
Yiding PeiShi Feng 乔治华盛顿大学 \{taslim\.mahbub, yidingp, shi\.feng\}@gwu\.edu
###### 摘要
将AI系统与多样的人类价值观对齐,需要将价值规范建立在具体例证之上,但在没有大量人类监督的情况下生成此类例证仍是一个未解决的挑战。我们研究了使这些例证有效的关键因素,利用内部一致性最大化——即通过最大化标签间的相互可预测性来推断标签——来生成特定画像的例证,从而引导模型朝向目标群体的价值观,整个过程无需人类监督。在涵盖分类、偏好和开放式生成的四个基准测试中,通过ICM推断的上下文例证达到了与黄金标签相当的性能。关键在于,一致性比单独的标签准确性更重要:在保持准确性不变的情况下,一致性更高的例证相比不一致的例证具有显著的泛化优势。对于预训练数据中代表性不足的画像,针对模型对某画像价值观最不确定的问题收集定向的人类反馈,其泛化效果远优于在任意问题上投入相同数量的标签。这些结果将一致性确立为可扩展价值规范的关键设计原则,充分利用了预训练语言模型中已编码的多样人类视角。
内部一致性最大化提升多元化对齐
Taslim Mahbub,Yiding Pei,Shi Feng
乔治华盛顿大学
\{taslim\.mahbub, yidingp, shi\.feng\}@gwu\.edu
## 1 引言
请参考图注
图1:无监督一致性最大化达到了黄金监督性能;零样本提示则表现落后。每个条形图代表在某个条件下,所有(模型,数据集)组合的得分占黄金监督性能百分比的平均值(为视觉清晰,y轴从70%开始),聚合了6个模型和4个数据集的结果。我们的方法在无需任何人类监督的情况下标记上下文例证,选择在模型下彼此最一致的标签。准确性匹配基线方法重新标记相同的例证项,使其同样准确但内部一致性较低,从而将一致性的影响与原始标签正确性的影响分离开来。标记点显示每个数据集的平均值。
有效的价值规范仍然是AI对齐的核心挑战:规范必须忠实地代表人类偏好,同时引导模型在新的情境中恰当泛化。虽然像“有益且无害”这样的高层次原则提供了方向性指导,但近期研究指出了抽象原则与实际实施之间的根本性差距。Mittelstadt (2019) 表明,高层次原则缺乏经过验证的方法来转化为实践,而Whittlestone等人 (2019) 则证明,当原则应用于具体案例时,会出现不可避免的张力,这种张力无法在抽象层面解决。这种规范差距表明,抽象原则对于有效的价值规范是必要的,但还不够。
越来越多的证据表明,具体例证不仅仅是补充性的,而是价值规范的基础。Constitutional AI需要少量例证来操作化其原则,InstructGPT的流程在偏好优化之前以示例的监督学习开始,而近期关于逆强化学习的工作表明,具体例证在忠实捕捉人类价值观方面可以胜过偏好数据。AI伦理中的基于案例推理传统在理论上证实了这一观察,认为伦理评估需要仔细处理一般原则与特定案例之间的相互作用。实证研究进一步表明,将价值规范建立在例证之上提供了零样本提示所缺失的高质量信号。
在人类偏好因人群和情境而异的多元化环境中,挑战变得更加严峻。单一的宪法无法涵盖人类价值观的全部范围,标准的对齐程序有可能会破坏服务于多样化人群所必需的价值分布多元性。这激发了针对特定画像的价值例证的需求。我们将画像定义为一个条件变量,代表特定群体(例如,一个国家、一个政治派别或一种共同的互动风格)的价值观或偏好,展示抽象原则如何应用于该群体。
我们的贡献。我们研究有效价值规范在多元化对齐中的驱动因素,利用内部一致性最大化来生成特定画像的例证。我们做出了三项贡献。*首先*,我们表明上下文例证集的*一致性*(在基础模型下其标签的相互可预测性)比标签的个体*准确性*(即与真实值匹配的比例)更能预测下游的泛化能力:在保持标签准确性不变的情况下,一致性更高的例证集泛化能力显著更强。*其次*,在无需任何人类监督的情况下,使用ICM推断出的例证在引导模型朝向目标群体价值观方面与黄金例证表现相当——在分类基准测试中通过标签或偏好准确性衡量,在开放式生成中通过代表性分数衡量。这一结果在四个数据集和三种任务格式中保持一致,在三个模型族及其各自的两种规模下保持稳定,并且即使在推断出的标签个体准确性低于人类标签的情况下依然成立。*最后*,对于预训练数据中代表性不足的人群(无监督推断最不可靠的情况),我们表明,在不确定性最高的问题上收集人类标签,其泛化效果远优于在任意问题上投入相同数量的标签。综合来看,这些结果表明一致性是可扩展价值规范的关键设计原则。
## 2 背景与动机
#### 多元化问题。
在一个多元化的世界里,人类偏好因个人、文化和情境而异,这使得单一全球性的正确规范难以成立。当代的对齐通过诸如有用性、诚实性和无害性等全局轴来操作化价值观,然而在偏好存在分歧的地方,这些目标的泛化能力很差。基于RLHF的训练加剧了这一点:训练后的数据集编码了相互冲突的偏好,但标准程序选择的是单一视角,而非保持多样性。
#### 当前方法的局限性。
诸如GATE之类的交互式引导方法通过可操控的个性化来解决多元化问题,但面临两个限制:它们需要大量的直接用户交互,并且未能利用预训练模型中已编码的关于价值多样性的潜在知识。关键的是,基础模型已被证明比训练后的模型更能反映不同国家的人类价值观,这可能是因为训练后阶段压缩了预训练数据中存在的多元化结构。这暗示了一个机会:以最少的监督从预训练模型中提取与价值相关的结构,只在最需要的时候才保留交互。我们假设,预训练模型为其遇到的多样化人群编码了不同的价值档案,并且最大化某个画像标签的内部一致性可以在无需监督的情况下揭示这些档案。
#### 操作化多元化。
我们将多元化对齐操作化为*可引导性*:即能够根据目标画像对模型进行条件化,使其输出反映该群体的价值观,而非单一的全球规范。这是我们贯穿始终的目标属性。具体来说,可引导性要求:当以某画像为条件时,模型是否产生与该群体一致的输出?我们通过所有四个数据集来测量——在分类基准测试中,通过标签或偏好准确性;在开放式生成中,通过代表性分数(图2)。作为一个补充视角,我们还通过比较每个画像的预测意见分布和观察到的意见分布来报告*分布性*多元化(图5)。
## 3 方法
我们的方法使用一个一致性最大化算法,在无需人类监督的情况下生成特定画像的价值例证。该流程包含三个阶段:(1)画像提取与项目选择,(2)基于ICM的标签推断,以及(3)用于推理的上下文条件设置。
### 3.1 画像与项目
该流程首先提取粗粒度的画像特征(例如,国籍、人口统计信息或政治派别)作为上下文锚点。在本工作中,为简单和可重复性起见,我们将画像提取限制在目标查询中明确陈述的特征上。
给定选定的画像,我们识别一组与目标查询相关的*项目*,每个项目配有必要数量的候选标签。一个项目采用以下三种形式之一:(a) 一个带有离散答案选项的问卷问题(例如,“政府是否应该采取更多措施来减少不平等?”答案为“是”/“否”);(b) 一对候选回复,标签是对回复A是否优于B的二元判断;或 (c) 一个(问题,候选答案)对,标签指示该答案是否代表该画像。这些项目代表了该画像可能持有偏好或信念的维度。在所有三种情况下,ICM都会推断出与该画像整体价值档案最一致的标签。
### 3.2 基于ICM的标签推断
我们应用内部一致性最大化方法来使用基础语言模型以无监督方式推断项目的标签。核心直觉是,一致的价值体系表现出统计规律性——如果某画像在议题A上持有立场X,这会约束他们在相关议题B上的可能立场。ICM通过搜索标签分配来最大化一致性分数:在基础模型下,每个标签在所有其他标签条件下的相互可预测性。从一个随机分配开始,搜索过程迭代地提出标签更改,并在模拟退火准则下接受它们(该准则的温度随运行时间衰减);该过程从多个随机种子重复运行,并保留得分最高的分配。这种方法在无监督信号的情况下恢复了模型价值先验中的潜在结构。我们使用Llama-3.1-70B初始化搜索,该模型已知在复杂引导任务中表现良好,超参数见附录B。
### 3.3 用于推理的上下文条件设置
ICM推断出的项目-标签对被用作下游推理的少量例证。我们构建一个提示,其中包含 (1) 目标画像的描述,(2) 一组带有ICM推断标签的示例项目,以及 (3) 目标查询。根据任务不同,下游推理采取两种模式之一。
#### 离散标签预测。
模型为保留项目预测一个离散标签——例如,问卷问题的一个答案选项,或回复对的一个A对B偏好——并受到通过上下文例证建立的一致价值档案的指导。这使用上下文学习从已知的项目-标签对泛化到未知的目标;表5给出了示例。
#### 引导式开放式生成。
当下游输出是自由形式的文本而非离散标签时,项目是(提示,候选答案)对,ICM将每个候选答案标记为代表画像或不代表。ICM搜索选择来代表某画像的候选答案作为上下文引导示例:模型基于这些示例来生成对目标提示的开放式回复,并由一个LLM-as-judge评分者评估该回复在多大程度上反映了目标群体。这测试了一致性例证在输出为自由形式而非分类时是否能改善对齐。
## 4 实验设置
### 4.1 数据集与评估
我们评估跨越三种任务格式的四个数据集。对于每个数据集,我们给出数据来源、画像维度以及用于评分的指标。除非另有说明,我们使用按画像分层的4折交叉验证:ICM在训练折上推断标签,这些标签随后作为保留折的上下文例证。OvertonBench则使用按政治群体分层的单一30/70搜索/测试分割。结果在所有折(如适用)和画像上进行平均。
#### GlobalOpinionQA (GQA)。
该基准测试评估国家层面的多元化对齐。我们将每个国家抽象为一个反映聚合的国家价值先验的画像,并测试模型是否能预测该画像在给定主题上的意见。我们将每个实例框架化为分类任务,并报告*标签预测准确率*:预测标签与调查数据中多数标签之间的精确匹配率。
#### OpinionQA (OQA)。
该数据集包含来自皮尤研究中心美国趋势小组的问题,涵盖广泛的政治和社会议题,并以政治派别(民主党、共和党、独立人士)作为画像维度。派别是一个具有挑战性的测试案例:它虽与某些议题上的可预测立场相关,但在其他议题上内部存在异质性,因此群体成员身份提供了信号,但并不保证确定性预测。我们使用与GQA相同的标签预测准确率进行评分。
#### Persona-Tailoring (PT)。
该数据集评估超越粗粒度人口统计信息的细粒度个性化。任务是成对偏好:给定两个候选回复,模型选择画像更偏好的那个,编码为二元“A优于B”的判断。为了使画像基于真实使用场景而非冗长的手写描述,我们通过关键词将原始数据集聚类为四种代表性画像类型:直接-简洁-事实优先 (DCF)、对话-共情-教练 (DEC)、直接-有条理-循序渐进 (DMS) 和对话-学术-细致 (DSN)。我们报告*偏好准确率*:模型选择画像实际偏好的回复的比率。
#### OvertonBench (OT)。
该基准测试评估在开放式生成任务中的可引导多元化对齐。相似文章
基于角色的生成式AI多元对齐评估框架
本文提出了一种基于角色的评估框架,利用合成认知档案代表不同人类视角,用于生成式AI的多元对齐,解决了单一基准测试的局限性。
拥有一致的 AI 政策
本文批评了将 'tokenmaxxing' 视为 AI 采用的虚荣指标的趋势,并提出了一种连贯的 AI 政策,强调理解 AI 生成的代码、不依赖 AI 工具的自给自足以及关注客户和队友。
考虑语境:塑造道德信念以实现价值对齐
本文主张,在AI价值对齐中聚合道德评估时必须考虑语境因素,表明忽略语境可能导致违反弱帕累托原则,类似于辛普森悖论。
Alignment pretraining: AI discourse creates self-fulfilling (mis)alignment
本文介绍了alignment pretraining的概念,表明预训练语料中的AI讨论会导致LLM产生自我实现的(错误)对齐,并且对对齐讨论进行上采样可以显著减少错误对齐。
两者兼顾:针对大语言模型上下文完整性的互补自蒸馏方法
提出互补自蒸馏(SelfCI)方法,通过平衡效用与隐私来提升大语言模型的上下文完整性。在CI-RL和PrivacyLens基准测试上跨多个模型进行了评估。