面向移动众包中LLM微调的真实在线偏好聚合

arXiv cs.LG 论文

摘要

提出了一种用于移动众包中LLM微调的真实在线偏好聚合机制,解决了策略性工人误报问题,并实现了次线性遗憾。

arXiv:2605.24052v1 Announce Type: new 摘要:为了更好地满足移动应用(如导航)中用户的需求,移动众包平台可以迭代地将大语言模型(LLM)生成的内容(例如,AI生成的交通状况预测)与从众包工人(例如,移动用户)收集的人类反馈对齐。然而,工人可能会策略性地误报其在线偏好反馈,以最大化其影响力或报酬。现有的移动众包管道(例如,基于EM的权重估计)无法在这种在线设置中识别出最准确的工人,导致在$T$个时隙上产生线性遗憾$\mathcal{O}(T)$。本文研究了移动众包中用于LLM微调的真实在线偏好聚合问题。我们建立了一个新的动态贝叶斯博弈来模拟平台与策略性移动工人之间的多智能体在线学习过程。我们提出了一种新颖的在线加权聚合机制,该机制根据工人的反馈准确性动态调整其在偏好聚合中的权重。我们证明了该机制能够确保策略性工人提供真实反馈,并在$T$个时隙上实现次线性遗憾$\mathcal{O}(\sqrt{T})$。我们进一步将机制扩展到每个时隙工人反馈有限的挑战性场景,仍然保证了次线性遗憾$\mathcal{O}(\sqrt{T})$。在真实世界数据集上进行的LLM微调实验进一步表明,我们的机制相比基准方案具有显著的性能提升。
查看原文
查看缓存全文

缓存时间: 2026/05/26 08:59

# 移动众包中LLM微调的诚实在线偏好聚合
**来源**: https://arxiv.org/html/2605.24052

Shugang Hao, 和 Lingjie Duan  
本文部分内容已发表于 IEEE ICASSP 2025\[1\]。  
Lingjie Duan的研究得到了广东省通感算一体化泛在物联网重点实验室(No. 2023B1212010007)的支持。  
Shugang Hao在新加坡科技设计大学新加坡无线创新中心,新加坡 487372。 Lingjie Duan在香港科技大学(广州)物联网学域和人工智能学域,中国广州 511455。 邮箱:shugang\_hao@sutd\.edu\.sg, lingjieduan@hkust\-gz\.edu\.cn。 (通讯作者:Lingjie Duan。)

###### 摘要

为了更好地满足移动应用(例如导航)中用户的需求,移动众包平台可以迭代地将大型语言模型(LLM)生成的内容(例如AI生成的交通状况预测)与从众包工作者(例如移动用户)收集的人类反馈进行对齐。然而,工作者可能会策略性地虚报其在线偏好反馈,以最大化自身影响力或报酬。移动众包中现有的流程(例如基于EM的权重估计)无法在此在线环境中识别出最准确的工作者,导致在T个时间槽上产生线性遗憾O\(T\)。在本文中,我们研究了移动众包中LLM微调的诚实在线偏好聚合问题。我们提出了一种新的动态贝叶斯博弈来建模平台与策略性移动工作者之间的多智能体在线学习过程。我们提出了一种新颖的在线加权聚合机制,该机制根据工作者反馈的准确性动态调整其在偏好聚合中的权重。我们证明,该机制能确保策略性工作者提供诚实的反馈,并在T个时间槽上实现次线性遗憾O\(√T\)。我们进一步将机制扩展到每个时间槽工作者反馈受限的挑战场景,仍能保证次线性遗憾O\(√T\)。基于真实数据集的LLM微调实验进一步证明了我们的机制相较于基准方案的显著性能提升。

## I. 引言

为了更好地满足移动应用中用户的需求,移动众包平台可以迭代地将大型语言模型(LLM)生成的内容与从众包工作者收集的人类反馈进行对齐(例如,[2]、[3])。例如,导航平台(如Waze)持续收集有关交通状况、路线和系统推荐的人类反馈,为动态移动环境中LLM的迭代对齐提供所需的人类反馈(例如,[4]、[5])。移动对话式AI应用(如ChatGPT和Gemini移动版)持续收集用户的交互反馈(例如,二元评分、响应重新生成和后续更正),以评估和改进系统生成的响应(例如,[6]、[7])。

然而,近期研究发现,自私的工作者可能会策略性地虚报其在线偏好反馈,以最大化自身影响力或报酬(例如,[8]、[9]、[10]、[11])。例如,存在著名的“湿偏”现象,即作为工作者或预测者的天气预报员可能会故意夸大降水概率,以增加其预测在天气预报平台最终预测中的影响力(例如,[12])。此外,大量亚马逊Mechanical Turk(MTurk)工作者被发现策略性地虚报其对平台发放的筛选问题的回答(例如,虚假声称满足所要求的背景、先前经验或设备拥有情况),目的是增加其获得更高报酬任务的机会或权重(例如,[13]、[14])。

尽管如此,现有的自适应聚合流程(例如,基于EM的权重计算 [15]、[16] 和 Hedge 风格的在线学习 [17]、[18])在很大程度上假设工作者是被动或诚实的,忽略了工作者策略性虚报的可能性。我们的第一个研究问题由此产生:
*   **(1) 当前LLM微调实践在面对自私工作者时有多脆弱?** 随后,我们将证明这种当前实践无法在在线学习过程中识别出最准确的工作者。

近期工作(例如,[8]、[10]、[9]、[19]、[20])提出了货币机制设计,以从策略性工作者那里获取诚实的偏好,用于LLM微调。然而,这些基于支付的机制主要关注一次性或离线的偏好获取,没有考虑在线交互,而在在线环境中,工作者有更多空间进行策略性虚报并与平台博弈以获取长期影响力。我们还发现一些关于在线或迭代式LLM对齐的近期研究(例如,[21]、[22]、[23]),其中系统使用定期收集的人工标注进行LLM微调。然而,这些研究关注的是单个工作者的偏好反馈,没有解决来自多个工作者的多样化人类反馈。此外,它们假设工作者总是诚实地提供其真实偏好反馈,这没有捕捉到多个工作者的策略性虚报。

在算法博弈论的相关文献中,有关于设施选址博弈的非货币机制研究(例如,[24]、[25]、[26]),其中系统旨在激励客户诚实地报告其位置,以优化设施布局。每个客户可以策略性地虚报其位置,以误导设施尽可能靠近其位置(偏好)。流行的“中位数”方案(例如,[11]、[27])用于聚合多智能体报告,被广泛用于实现客户诚实的报告。然而,我们随后将证明,该方案会随时间产生非消失的遗憾。因此,我们的第二个研究问题由此产生:
*   **(2) 如何为移动众包中的LLM微调设计一种针对自私工作者的诚实且遗憾高效的机制?**

请注意,在激励工作者诚实反馈的同时实现消失的遗憾极具挑战性。首先,工作者的真实偏好是隐藏的,并且可能随时间变化,这使得平台难以检测或纠正虚报,并可靠地推断这些偏好(例如,[8])。此外,由于最准确的工作者未知且必须在线学习,平台在存在策略行为的情况下难以以保证消失遗憾的方式动态分配权重。

我们总结关键创新和主要结果如下:
*   **移动众包中LLM微调的诚实在线偏好聚合:** 在本工作中,我们研究移动众包应用中诚实在线偏好聚合机制的设计,其中异质工作者可能会策略性地虚报其偏好反馈,以最大化其长期影响力或报酬。聚合后的偏好作为平台下游LLM迭代微调的人类反馈数据集。与专注于单个工作者或离线偏好反馈的LLM文献(例如,[8]、[10]、[9]、[19]、[21]、[22]、[23])不同,我们关注**平台如何通过在线聚合机制设计来激励自私工作者提供诚实反馈**。
*   **当前实践的非消失遗憾:** 我们证明,当前众包实践(例如,基于EM的权重估计)无法识别最准确的工作者,并可能导致在T个时间槽上产生非消失的遗憾O\(T\)。此外,我们证明,算法博弈论文献中流行的中位数方案仍会产生线性遗憾O\(T\)。
*   **我们新颖的诚实在线加权聚合机制:** 我们首先提出了一种新的动态贝叶斯博弈,用于建模平台与策略性工作者之间的多智能体在线学习过程。然后,我们提出了一种新颖的在线加权聚合机制,该机制根据工作者在在线学习过程中的反馈准确性动态调整其在偏好聚合中的权重。我们证明,我们的机制能保证工作者提供诚实的偏好反馈,并在T个时间槽上实现消失的遗憾O\(√T\)。我们进一步证明,在均匀步长α下,我们的机制对新的高质量工作者具有响应性,并且在有界噪声的地面真实系统状态验证下保持鲁棒性。
*   **扩展到有限的工作者反馈:** 在实践中,由于成本和协调挑战,从多个工作者那里收集反馈可能很困难,这反过来会减慢LLM微调中的在线学习过程(例如,[28])。我们进一步扩展到应对一个挑战性场景,即每个时间槽只能获得一个工作者的偏好反馈。我们提出了一种新颖的在线混合选择机制,以确保任何策略性工作者提供诚实的反馈,同时保持次线性遗憾O\(√T\)。基于真实数据集的LLM微调实验进一步证明了我们提出的机制相对于基准方案的显著性能提升。

本文其余部分组织如下。第二部分回顾相关工作。第三部分介绍系统模型以及基于LLM微调迭代的在线移动众包动态贝叶斯博弈公式。第四部分分析了文献中常用的三种方案,作为我们机制后续比较的基准。第五部分详细介绍了我们提出的机制设计和分析。第六部分将框架扩展到有限的工作者反馈。第七部分展示了在真实数据集上的实验结果。第八部分进行总结。

## II. 相关工作

在本节中,我们将讨论与本研究最相关的四个方向的现有工作。

**在线LLM与人类反馈对齐。** 近期关于在线或迭代式LLM对齐的研究使用定期收集的人工标注进行LLM微调,以保持策略与不断变化的用户偏好保持一致。Xiong等人[23]将迭代偏好学习形式化为针对参考模型的KL正则化优化,并在诚实单工作者反馈的假设下提供了理论保证。Ye等人[22]将此框架扩展到通用偏好模型,并推导出了在线交互下的收敛速度。Dong等人[21]提出了一种在线RLHF工作流程,该流程将奖励建模与来自流式人类反馈的迭代策略更新相结合。更多近期研究关注无需显式奖励模型的在线直接对齐,包括迭代式DPO变体和分布偏移下的在线偏好优化(例如,[22]、[23])。然而,这些研究关注的是单个工作者的偏好反馈,并假设工作者总是诚实的,这没有捕捉到移动众包中可能出现的策略性虚报,在移动众包中,异质自私工作者为长期影响力或报酬而竞争。

**用于诚实偏好获取的货币机制设计。** 另一项近期工作提出了货币机制设计,以从LLM微调中的策略性工作者那里获取诚实的偏好。Sun等人[8]设计了用于多奖励模型微调的支付机制,通过货币转移确保激励相容性。Soumalias等人[9]提出了在线广告中用于LLM的诚实聚合机制,通过拍卖式支付获取工作者的估值。Park等人[10]研究了在货币激励下的个性化异质反馈聚合。Dubey等人[19]进一步开发了带有LLM生成摘要的拍卖机制,Xu等人[20]设计了用于以人为中心的元宇宙中实时物理-虚拟同步的拍卖机制。然而,这种基于支付的机制主要关注一次性或离线的偏好获取,没有考虑随时间变化的在线交互,在在线环境中,工作者有更多空间跨迭代进行策略性虚报并塑造长期结果。相比之下,我们的工作关注重复交互下的非货币机制设计,其中平台通过动态权重调整(而非货币转移)来激励诚实的反馈,这在移动众包中更实用,因为在移动众包中,对移动用户的每次查询进行货币结算成本高昂。

**算法博弈论中的非货币机制设计。** 在算法博弈论文献中,一维空间上的中位数方案在处理具有单峰偏好的智能体时被认为是群体策略证明的,这可以追溯到Moulin的经典中位数选民结果[29]。这一基础性结果激发了大量关于无货币诚实机制的研究,特别是在设施选址博弈中(例如,[24]、[25]、[26])。然而,这些设施选址博弈中假设客户位置一次固定,并且系统一次性聚合报告。我们的设置不同,因为工作者的偏好随时间变化,且在线聚合过程是迭代的,这给动态权重调整和遗憾分析带来了新的挑战。此外,在移动众包场景中,每个时间槽的工作者数量可能很大,这与设施选址博弈中假设的少量智能体不同。我们证明,在这些设施的动态、在线工作环境中,中位数方案会导致线性遗憾O\(T\),而我们的机制实现了次线性遗憾O\(√T\)。

相似文章

隐藏的共识:人类反馈中的偏好有效性压缩

arXiv cs.CL

本文认为,标准RLHF将人类偏好标量化的做法导致多个有效解释被压缩为单一目标,从而在文化多元的社会中错误衡量对齐。通过对马来西亚数据集的分析,研究发现79%的提示词存在多个多数支持的回答,而这些回答在单一胜者聚合中被丢弃。

面向可靠LLM判断的边际自适应置信度排序

arXiv cs.LG

本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。