WildFeedback: 通过原位用户交互和反馈对齐大语言模型
摘要
WildFeedback是一个新颖的框架,它利用真实LLM对话中的原位用户反馈来自动创建偏好数据集,用于将语言模型与人类偏好对齐,解决了传统基于标注的对齐方法中的可扩展性和偏差问题。
arXiv:2408.15549v4 Announce Type: replace
Abstract: 随着大语言模型(LLMs)的不断发展,将这些模型与人类偏好对齐已成为一个关键挑战。传统的对齐方法依赖于人工或LLM标注的数据集,受到资源密集、固有主观性、与真实用户偏好不一致以及放大模型偏差的反馈循环风险的限制。为了克服这些限制,我们引入WildFeedback,一个新颖的框架,它在与LLM的对话过程中利用原位用户反馈来自动创建偏好数据集。给定多轮用户-LLM对话语料库,WildFeedback识别并分类对话轮次间用户对LLM响应的反馈。然后使用用户反馈根据用户偏好创建偏好和非偏好响应的示例。我们的实验表明,在WildFeedback数据集上微调的LLMs表现出与用户偏好的显著改进的对齐效果,这由传统基准和我们提议的清单引导评估都得到证实。通过整合来自真实用户的原位反馈,WildFeedback解决了困扰现有方法的可扩展性、主观性和偏差挑战,标志着开发更能响应用户多样化和不断演变需求的LLMs的重要进展。
查看缓存全文
缓存时间: 2026/04/20 08:31
# 用真实用户互动和反馈对齐大语言模型 来源:https://arxiv.org/html/2408.15549 Taiwei Shi∗†, Zhuoer Wang∗‡, Longqi Yang∗⋄, Ying‐Chun Lin∘, Zexue He▽, Mengting Wan⋄, Pei Zhou⋄, Sujay Jauhar⋄, Sihao Chen⋄, Shan Xia⋄, Hongfei Zhang⋄ Jieyu Zhao†, Xiaofeng Xu⋄, Xia Song⋄, Jennifer Neville∗⋄ ⋄微软公司,∘普渡大学,‡德州农工大学,▽加州大学圣地亚哥分校,†南加州大学 通讯作者:taiweish@usc\.edu, wang@tamu\.edu, longqi\.yang@microsoft\.com, jenneville@microsoft\.com\. 本工作在 Taiwei Shi, Zhuoer Wang, Ying‐Chun Lin 和 Zexue He 在微软公司实习期间完成\. ###### 摘要 随着大语言模型(LLM)的不断进步,将这些模型与人类偏好对齐已成为一个关键挑战。传统的对齐方法依赖于人类或 LLM 标注的数据集,但受到资源密集性、固有主观性、与真实用户偏好的不一致,以及反馈循环可能放大模型偏见等限制。为了克服这些限制,我们引入了 WildFeedback,一个新颖的框架,利用用户在与 LLM 对话中的实时反馈来自动创建偏好数据集。给定包含多轮用户-LLM 对话的语料库,WildFeedback 识别并分类对话轮次之间用户对 LLM 响应的反馈。然后根据用户偏好利用这些反馈创建偏好和非偏好响应的示例。我们的实验表明,在 WildFeedback 数据集上微调的 LLM 在与用户偏好的对齐方面显著改进,这由传统基准和我们提出的清单引导评估都证明了。通过整合来自实际用户的实时反馈,WildFeedback 解决了现有方法面临的可扩展性、主观性和偏见问题,标志着向开发更能响应用户多样化和不断演变需求的 LLM 迈出了重要一步。 WildFeedback:用真实用户互动和反馈对齐大语言模型 Taiwei Shi††致谢:通讯作者:taiweish@usc\.edu, wang@tamu\.edu, longqi\.yang@microsoft\.com, jenneville@microsoft\.com\. 本工作在 Taiwei Shi, Zhuoer Wang, Ying‐Chun Lin 和 Zexue He 在微软公司实习期间完成\.∗†, Zhuoer Wang∗‡, Longqi Yang∗⋄, Ying‐Chun Lin∘, Zexue He▽, Mengting Wan⋄, Pei Zhou⋄, Sujay Jauhar⋄, Sihao Chen⋄, Shan Xia⋄, Hongfei Zhang⋄ Jieyu Zhao†, Xiaofeng Xu⋄, Xia Song⋄, Jennifer Neville∗⋄⋄微软公司,∘普渡大学,‡德州农工大学,▽加州大学圣地亚哥分校,†南加州大学 ## 1 引言 大语言模型(LLM)已成为现代自然语言处理(NLP)应用的基石,支撑了从对话代理到内容生成等多种任务。尽管 LLM 具有诸多优势,但将其与人类偏好对齐仍然是一个挑战(Bai 等,2022a;Ouyang 等,2022;OpenAI 等,2024;Dubey 等,2024)。传统的对齐方法涉及对精心策划的人类或 LLM 标注数据集进行指令调优和偏好训练(Bai 等,2022a;Ouyang 等,2022;Cui 等,2024)。然而,这些方法面临着关键限制:人类标注资源密集且主观性强,而 LLM 生成的合成数据有风险强化偏见而非捕捉多样化的人类偏好(Gautam 和 Srinath,2024;Wyllie 等,2024;Chen 等,2024;Poddar 等,2024)。 作为回应,最近的工作探索了从自然人-LLM 交互中挖掘用户偏好(Shi 等,2022;Lin 等,2024b;Don-Yehiya 等,2024)。这种方法利用与 LLM 交互过程中的真实用户反馈,提供了更加动态和准确的用户偏好反映。与其依赖于静态、昂贵且不对齐的预先收集的数据,这种方法适应不断演变的用户需求。然而,现有工作的范围有限,要么需要用户提供明确的结构化反馈,要么直接对触发明确用户反馈的响应进行模型微调。 在本文中,我们引入了 WildFeedback,一个设计用来用真实用户互动和反馈对齐 LLM 的新颖框架。WildFeedback 通过从真实用户-LLM 对话中构建偏好数据集来解决现有方法的限制,特别关注自然发生在这些交互中的用户反馈。框架概述如图 1 所示。我们的框架包含三个关键部分:(1)反馈信号识别,检测和分类用户反馈,区分正反馈和负反馈以推断用户偏好;(2)偏好数据构建,将这些信号转化为结构化偏好数据集;和(3)清单引导评估,使用从提取的用户偏好派生的实例级清单作为指标,系统地评估模型响应。这确保了模型改进是基于真实用户期望而非预定义启发式方法。为了演示 WildFeedback 的有效性,我们将其应用于 WildChat(Zhao 等,2024),一个包含超过 148,000 次用户与 ChatGPT 之间多轮对话的数据集(参见附录 E 中关于 WildChat 的详细信息)。这个过程产生了包含 20,281 个样本的偏好数据集(数据集可在此处获得:https://huggingface.co/datasets/microsoft/WildFeedback),为改进 LLM 与真实用户偏好的对齐提供了丰富的资源。 通过广泛的实验,我们证明了在 WildFeedback 上微调的模型在自动化基准和我们提出的清单引导评估框架中都表现出了与用户偏好对齐的显著改进。这项工作代表了向创建更以用户为中心的 LLM 迈进的一步,有潜力提高各种应用中的用户满意度。 本论文的贡献有三个方面: 1. **WildFeedback 的引入**:我们呈现了一个新颖的框架,利用真实用户反馈来构建偏好数据集,更好地反映实际人类价值观,解决了人工标注数据集中固有的可扩展性和主观性问题,以及合成数据中的偏见。 2. **鲁棒的数据构建**:我们基于现有的用户满意度估计技术进行调整和扩展,以识别自然对话中的反馈信号。这使得能够创建包含用户偏好和相应响应的细致偏好数据集,增强了微调 LLM 以更好地与用户期望对齐的有效性。 3. **清单引导评估**:我们提出了一个清单引导的评估方法,将模型性能评估与真实用户偏好对齐,为评估 LLM 与人类价值观对齐的准确性提供了更好的基准。 ## 2 相关工作 #### LLM 的反馈学习 将人类反馈纳入其中已被证明是一种有效策略来使 LLM 与人类偏好对齐(Ouyang 等,2022;Bai 等,2022a;Dubey 等,2024)。然而,依赖人类标注员提供人类反馈效率低且资源密集,这使得难以扩展。此外,人类偏好高度主观。一小组标注员可能无法代表更广泛的偏好。因此,一些研究人员旨在由模型本身监督 AI 模型(Bai 等,2022b;Lee 等,2023;Madaan 等,2023;Burns 等,2023;Li 等,2023a;Shi 等,2026)。例如,Bai 等(2022b)引入了宪法 AI,其中他们提示 LLM 根据一组人类定义的宪法自我改进他们自己的生成。然而,依赖模型自身的反馈可能会产生反馈循环,其中模型的输出越来越反映其自身的偏见,而不是多样化和真实的人类观点。最近,研究人员开始探索从自然人-LLM 交互中挖掘用户偏好(Shi 等,2022;Lin 等,2024b;Don-Yehiya 等,2024;Buening 等,2026)。这些方法捕捉实时用户反馈,以实现更准确的偏好对齐。我们的工作通过利用真实用户交互来创建更好地与实际人类价值观对齐的偏好数据集,解决了合成和人工标注偏好数据集的局限性,从而以这一趋势为基础。 #### LLM 对齐的数据 LLM 对齐通常由两个步骤组成:指令调优和偏好训练。指令调优或监督微调(SFT)旨在使用一组指令-响应对微调模型。早期工作将各种 NLP 任务纳入指令调优,展示了 LLM 可以很好地泛化到不同任务(Wang 等,2022;Chung 等,2022;Ouyang 等,2022)。随后的研究关注通过直接从能力强的 LLM 中蒸馏来构建指令数据(Wang 等,2023;Xu 等,2023)。研究人员后来认识到偏好训练可以进一步提升各种任务上的模型性能(Ouyang 等,2022;Dubey 等,2024)。偏好训练使用期望和非期望的响应,可以是人工标注的(Bai 等,2022a)或 LLM 生成的(Cui 等,2024)。除了通用目的的偏好数据集外,一些数据集关注特定的任务,如总结(Wu 等,2021)、模型安全(Ji 等,2023;Shi 等,2024;Pan 等,2025)和数学(Lightman 等,2023;Song 等,2025)。然而,这些方法往往依赖于由人类专家手动标注或由 GPT-4 等模型生成的精心策划数据集(OpenAI 等,2024)。虽然这些数据集提供了有用的基础,但它们可能无法完全捕捉真实用户交互的复杂性和多样性。我们的工作通过引入一个利用来自实际用户的实时反馈的框架来解决这一空白,允许更真实和上下文敏感的 LLM 与真实人类偏好的对齐。 ## 3 WildFeedback 现有的偏好数据集往往存在实际人类偏好与标注员偏好之间的不匹配(Chen 等,2024;Poddar 等,2024)。合成偏好数据集,如 UltraFeedback(Cui 等,2024),仅依赖 GPT-4 来生成排名并确定哪些响应是偏好还是非偏好。然而,这种方法可能无法准确捕捉真实人类价值观或细致的偏好。依赖合成数据可能会产生反馈循环,其中模型的输出越来越反映其自身的偏见而非多样化和真实的人类观点。另一方面,由人类标注员标注的偏好数据集由于时间和预算限制而难以扩展(Bai 等,2022a;Ouyang 等,2022;Dubey 等,2024)。此外,人类标注员的偏好可能高度主观,通常与真实用户的偏好差异很大(Zhang 等,2024;Fleisig 等,2023)。 为了解决这些挑战,我们引入了 WildFeedback,一个设计用来用真实用户互动和反馈对齐 LLM 的框架。与依赖合成响应的先前方法不同,我们的框架直接从真实用户学习偏好,捕捉显式和隐式反馈信号。该框架由三个步骤组成:(1)反馈信号识别,(2)偏好数据构建,和(3)清单引导评估。流程如图 1 所示。我们将这个框架应用于 WildChat(Zhao 等,2024),一个真实用户-ChatGPT 对话语料库,并获得了 WildFeedback 数据集,一个包含 20,281 个样本的偏好数据集。 ### 3.1 反馈信号识别 为了从自然人-LLM 交互中构建偏好数据,我们首先识别包含反馈信号的对话。这可以通过用户满意度估计来实现。在多轮对话会话中,用户可能在他们的话语中明确表示满意度(例如,"谢谢")或不满意度(例如,"修改它")。Lin 等(2024b)提出了一个名为 SPUR 的框架,可以自动学习和识别 SAT(满意度)和 DSAT(不满意度)模式。SPUR 通过递归提示 GPT-4,从带有带状反馈标注的对话中泛化 SAT/DSAT 指标。然后可以使用这些指标对用户的整体满意度或不满意度进行评分,允许我们识别包含反馈信号的话语。
相似文章
采用 $\neq$ 适应:野外LLM对话的纵向分析
本文分析了必应Copilot用户的纵向对话轨迹,并与WildChat数据进行比较,发现个体用户习惯具有粘性,且WildChat过度代表了高级用户,挑战了用户与LLM互动的静态观点。
基于对比 LLM 微调对齐对话附和信号与语境表征
KTH Royal Institute of Technology 的研究人员提出了一种两阶段框架,通过在对话转写文本上微调 LLMs,并结合对比学习构建联合嵌入空间,以实现对对话附和信号与语境的精准对齐。结果表明,相较于以往方法,该方案显著提升了语境与附和信号的匹配检索性能。
在LLM个性化中重新聚焦人类
本文研究了在评估LLM个性化的三个阶段(属性提取、相关性匹配和响应生成)中,合成数据与人类数据之间的差距。结果表明,模型在真实人类数据上表现更差,作者引入了轻量级训练干预措施以改善对齐。
基于LLM的服务反馈新兴主题检测模型
本文提出了一种新颖的方法论,整合了LLM、统计技术和人机协同,用于检测多语言服务反馈中的新兴主题,旨在提升公共部门组织的服务质量和公平性。
面向即时自适应反馈:通过知识驱动的LLM提升学生学习效果
本文提出一个框架,利用领域专家知识来引导大语言模型,根据学生的书面推理提供即时自适应反馈。在一门大规模大学课程中,该框架使学生成绩提升了超过80%。