采用 $\neq$ 适应:野外LLM对话的纵向分析
摘要
本文分析了必应Copilot用户的纵向对话轨迹,并与WildChat数据进行比较,发现个体用户习惯具有粘性,且WildChat过度代表了高级用户,挑战了用户与LLM互动的静态观点。
arXiv:2605.29018v1 Announce Type: new
摘要:尽管越来越多的研究开始描述用户与LLM的互动,但其描绘的画面大多是静态的;对于个体用户如何随时间改变行为知之甚少。为弥补这一空白,我们分析了随机抽样的$\sim$12,000名微软必应Copilot用户的对话轨迹,并与WildChat-4.8M的数据进行比较。虽然Copilot数据存在显著的人群层面趋势,但我们发现个体用户轨迹的趋势要弱得多;用户习惯显示出极强的粘性。我们还发现不同活跃度用户之间存在明显差异:更活跃的用户拥有更成功的对话,并且使用LLM进行更复杂和职业导向的任务。一些用户趋势也出现在WildChat-4.8M中,但我们发现证据表明该数据集显著偏向于高度熟练的“高级”用户。最终,我们的结果表明现有用户行为难以改变,并展示了用户异质性的程度。我们数据集间的比较突显出WildChat并不能代表典型的用户与AI互动,这对数据的下游使用是一个重要的注意事项。
查看缓存全文
缓存时间: 2026/05/29 09:11
# LLM对话纵向分析:用户习惯的粘性与数据集偏差 来源:https://arxiv.org/html/2605.29018 Rebecca M\. M\. Hicke 康奈尔大学 rmh327@cornell\.edu Kiran Tomlinson 微软研究院 kitomlinson@microsoft\.com ###### 摘要 虽然越来越多研究开始描述用户与LLM的交互,但所描绘的图景很大程度上是**静态**的——个体用户的行为如何随时间变化,我们知之甚少。为填补这一空白,我们分析了约12,000名随机抽样的微软Bing Copilot用户的对话轨迹,并将其与WildChat-4.8M数据进行对比。尽管Copilot数据呈现出显著的整体趋势,但我们发现个体用户的趋势要弱得多;用户习惯被证明具有极强的**粘性**。我们还发现不同活跃度用户之间存在显著差异:活跃度更高的用户对话成功率更高,且更倾向于使用LLM处理复杂、专业导向的任务。部分用户趋势在WildChat-4.8M中也有所体现,但有证据表明该数据集明显偏向于高度熟练的“高级”用户。最终,我们的结果表明现有用户行为难以改变,并展示了用户异质性的程度。数据集间的对比凸显出WildChat并不能代表典型的用户-LLM交互,这对于该数据的下游应用是一个重要的警示。 **采用≠≠适应:野外环境下的LLM对话纵向分析** Rebecca M\. M\. Hicke††致谢:本工作完成于微软研究院实习期间。康奈尔大学 rmh327@cornell\.edu Kiran Tomlinson 微软研究院 kitomlinson@microsoft\.com > “我们探索的终点,将是回到起点,并第一次真正认识它。” —— T\. S\. 艾略特 ## 1 引言 近年来,大量研究开始考察用户与LLM交互的多个维度,涵盖任务复杂度(Suri et al\. 2024)、用户意图(Handa et al\. 2025;Chatterji et al\. 2025)等。这些文献描绘了LLM整体使用情况的清晰图景,有助于系统开发者改善用户体验,并为用户提供高效与LLM交互的指导。然而,这幅用户-LLM交互图景是**静态**的——个体用户如何随时间适应和变化,我们知之甚少。现有的时间分析往往只关注整体趋势(Chatterji et al\. 2025),这并不能反映用户个体行为的变化(如学习和适应)。 我们通过分析约12,000名在2024年活跃的微软Bing Copilot随机抽样用户六个月的对话轨迹,结合整体日对话样本(约100万次对话),来填补这一空白。我们按活跃度(在研究期间使用Bing Copilot的天数)对抽样用户进行分层,然后探索他们LLM使用的五个维度:使用强度、语言复杂度、任务完成度、任务意图和对话领域。我们描述了研究期间的整体趋势、个体用户的演化以及不同活跃度用户间的差异。此外,我们还对公开的WildChat-4.8M数据集(Zhao et al\. 2024;Deng et al\. 2024)进行了补充分析。在该数据集中,我们使用哈希处理的IP地址作为个体用户的代理,并复现了在Bing Copilot数据上执行的分析。使用公开数据集与私有数据结合,为我们的方法提供了额外的透明度,也使我们能够对比主流消费者级LLM用户与已被广泛用于理解LLM用户行为(Mireshghallah et al\. 2024)、微调模型(Shi et al\. 2025)以及建立基准(Lin et al\. 2025)等众多下游应用的WildChat数据。 我们的分层抽样发现,Bing Copilot的频繁用户(即“高级用户”)在所有分析维度上都与低频用户存在显著差异:他们更活跃,编写的消息语言复杂度更高,更可能完成对话,并且通常使用LLM处理更复杂、更职业导向的任务。这可能表明个体用户随着时间的推移学会了改变行为。然而,我们的纵向分析在很大程度上反驳了这一假设——那些将成为高活跃度用户的个体,*甚至在早期阶段*就以截然不同的方式与LLM交互。事实上,我们发现个体用户的行为变化非常小:用户习惯具有**粘性**,难以改变。与此相反,作为群体的Bing Copilot用户*确实*随时间发生了变化,并且往往趋向于高活跃度用户的行为特征。再次,纵向用户数据表明这些变化并非源于个体层面的学习,而是由与早期采用者显著不同的新用户所驱动。 最后,尽管我们的纵向分析主要揭示了用户习惯的粘性,但我们确实也发现了一些小规模的用户层面行为变化。其中部分模式在WildChat数据中同样出现:更活跃的用户完成更多任务,并存在一些类似的整体趋势。然而,WildChat中低活跃度与高活跃度用户之间的差异远不如Bing Copilot明显。我们发现WildChat所代表的用户群体极不寻常:高级用户比例过高(可能由HuggingFace前端驱动),且包含大量类似API使用的交互,而非自然对话。 这些发现具有若干重要启示。首先,习惯的粘性意味着用户可能不会通过自然探索发现更有用、更成功的LLM任务,这提示需要主动干预。第二,整体趋势向高活跃度用户行为的靠拢表明,即使在个体层面用户僵化抑制了学习,聚合层面仍存在学习现象。第三,不同活跃度用户间的悬殊差异凸显了在未来工作中认识个体异质性的重要性。最后,Bing Copilot与WildChat-4.8M用户群体之间的差异表明,WildChat数据的下游应用应谨慎实施;基于WildChat得出的成果可能无法推广到普通LLM聊天用户。 ## 2 相关工作 已有大量文献研究人们在真实环境中如何使用LLM,重点在于对用户意图、对话领域和消息语言特征进行分类(Handa et al\. 2025;Tomlinson et al\. 2025;Chatterji et al\. 2025;Costa-Gomes et al\. 2026;Ouyang et al\. 2023;Trippas et al\. 2024;Zhao et al\. 2024;Shah et al\. 2025;Suri et al\. 2024;Tamkin et al\. 2024)。部分分析甚至探索了整体层面的时间趋势(Chatterji et al\. 2025)或不同使用时长(注册天数)用户之间的差异(Massenkoff et al\. 2026)。与这些工作不同,我们分析的关键部分是在用户层面进行的(为保护隐私进行了聚合),从而能够识别个体行为如何随时间演变。 大多数现有的用户层面分析跟踪一小部分用户随时间变化,观察他们对待AI的态度和使用如何改变。(Skjuve et al\. 2022,2023)对Replika用户进行了12周的访谈,调查他们与聊天机器人的社交关系如何演化。(Long et al\. 2024)开展了一项为期三周、共10轮次的实验室实验,让博士生学习使用基于LLM的系统进行科学传播。(Chandra et al\. 2025)对Prolific用户进行了为期五周的调查,要求他们每天就社交和情感话题与商业LLM进行交互。然而,这些研究并未考察交互的语言内容。少数对用户-LLM对话文本进行时间分析的研究之一是(Ammari et al\. 2025)对36名本科生完整的ChatGPT对话历史所进行的研究。他们发现,使用ChatGPT编写代码、邮件、求职申请和回答选择题的学生更有可能继续使用该系统,而LLM给出不一致的回答以及学生表达的挫败感则预测了用户停止使用。与(Ammari et al\. 2025)类似,我们也对用户-LLM对话进行纵向分析,但采用更具代表性的用户样本,而非少量学生。 ## 3 数据 ### 3.1 Bing Copilot 我们的主要数据集包含2024年1月1日至2024年9月30日期间,在英语界面中与微软Bing Copilot进行的所有对话。注1:注1:可能为机器人的内容已被移除。我们对人类数据的使用经过了微软研究伦理、隐私与合规审查。在分析之前,所有对话中可识别个人身份的信息(例如电子邮件地址和财务信息)已被自动清除,唯一用户仅通过匿名ID识别。此外,所有报告的指标均聚合超过200名用户。所有数据均存储并分类于安全的计算环境中。关于数据伦理与隐私的更多讨论,请参见附录B。 我们的目标是考察用户与Bing Copilot交互的完整轨迹,从其第一次对话开始。然而,数据集并未标记某次对话是否为用户的第一次。因此,我们排除了在数据前三个月(2024年4月1日之前)有对话的所有用户。我们假设,在数据集中出现前三个月未与Bing Copilot互动的大多数用户将是新用户。然后,我们从过滤后的数据集中抽取两个子样本。 第一个子样本旨在代表研究时间段内(2024年4月1日至9月30日)的整体用户行为。为此,我们从指定时间段内每天随机选取约1,000次对话,生成了一个包含796,838条LLM和用户消息、来自175,061次对话的数据集。我们称之为**整体数据集**。 第二个子样本包括按活跃度(即用户与Bing Copilot有对话的天数)分层抽样用户的完整轨迹。活跃度分布呈幂律分布并带有指数截断(Clauset et al\. 2009),活跃天数少的用户居多,尾部厚重。因此我们将用户分为三个活跃度等级:活跃1–10天(低)、11–25天(中)、26天及以上(高)。为了研究所有活跃度级别的用户数据,我们从过滤后的数据集中随机抽取了活跃1,2,...,49,50天及以上的各约250名用户,并包含他们在研究期间内的所有对话。所得数据集包含11,905名用户的812,650次对话,累计4,879,568条消息。我们称之为**用户数据集**。 ### 3.2 WildChat-4.8M 由于Bing Copilot数据无法公开,我们在公开的WildChat-4.8M数据集(Zhao et al\. 2024;Deng et al\. 2024)上复现了我们的分析。注2:注2:可从 https://huggingface.co/datasets/allenai/WildChat-4.8M 获取,采用ODC-By许可。WildChat通过向用户提供自由访问HuggingFace Spaces上GPT模型的机会来收集数据,用户同意分享数据以换取服务。除了完整的对话文本,WildChat还提供了每个用户IP地址的哈希值以及用户所在国家/州。我们利用这些字段来关联可能来自同一用户的多次对话。为排除可能来自共享网络的数据,我们过滤掉了关联到超过三个不同国家、州或语言的哈希IP,以及对话数超过161的哈希IP(161是至少10个哈希IP对应的最大对话数)。这移除了3,099个哈希IP和677k次对话。过滤后,我们得到2,522,330次对话,来自1,830,631个哈希IP,时间跨度从2023年3月9日至2025年7月31日。为简洁起见,在本文余下部分我们将哈希IP称为“用户”。但需注意,这种将对话关联到用户的方法远不如Bing Copilot数据可靠——后者通过账户登录和Cookie的组合来识别用户。 我们再次将用户按相同方式分为低、中、高活跃度组(活跃1–10、11–25、26天以上)。注意,与Bing Copilot中的分层抽样不同,WildChat中活跃天数更高的组用户数要少得多。WildChat-4.8M数据集在后期出现了显著的不规则性:每日对话数和独立IP数出现巨大尖峰(附录图14)。我们发现这源于类似API的使用,即大量使用相同模板的提示,用于执行翻译、命名实体识别等任务(附录图13和表5)。为避免这部分非对话性活动的大量干扰,同时尽可能保持数据集完整,本文仅考虑2024年9月之前发生的WildChat-4.8M对话。包含此截止日期之后数据的所有图表完整版本请参见附录E。 ## 4 方法 ### 4.1 句法特征 我们计算了对话的若干句法属性:每次对话中用户发送的消息数、每次对话中用户平均句子长度注3:注3:语言复杂度的近似度量(Dale and Tyler, 1934; Gray and Leary, 1935; Flesch, 1948),使用spaCy计算。以及每位用户每天平均进行的对话数。对于Bing Copilot数据,我们相对于样本中的第一天(或当比较活跃度组时,相对于活跃一天的用户)来报告指标。 ### 4.2 语义特征 我们还使用LLM分类器评估了每次对话的若干高层语义属性:用户意图、对话领域和任务完成度。用户意图定义为用户与Bing Copilot对话的目的,分为九个类别,其中包括总结...
相似文章
WildFeedback: 通过原位用户交互和反馈对齐大语言模型
WildFeedback是一个新颖的框架,它利用真实LLM对话中的原位用户反馈来自动创建偏好数据集,用于将语言模型与人类偏好对齐,解决了传统基于标注的对齐方法中的可扩展性和偏差问题。
审视LLM中类人行为:模型行为、用户因素和系统提示的多维度分析
本文对LLM中的类人行为进行了多维度分析,研究了来自四个模型的21,000个对话中的普遍性、影响和可控性,发现行为因模型和用户因素而异,并对负责任的设计具有启示意义。
令牌统计揭示多轮大语言模型交互中的对话漂移
本文提出双可预测性(P)和信息数字孪生(IDT),一种使用令牌频率统计来监控多轮LLM交互中对话一致性的轻量级方法,无需使用嵌入或模型内部信息。该方法在检测矛盾和话题转换时达到100%的敏感度,同时为扩展LLM部署建立了实用的监控框架。
学习可转移的潜在用户偏好以实现与人类一致的决策
本文介绍CLIPR,一个从最少的对话输入中学习可转移的潜在用户偏好的框架,以改进LLM中与人类一致的决策。
适应是双向的:研究人类与语言模型之间的语言趋同
本文研究了在多轮对话中人类与大型语言模型之间的语言适应性,发现LLM过度趋同于用户风格,而人类适应LLM的方式与适应其他人类并无不同。