跨领域操作序列抽象为可解释工作流

arXiv cs.AI 论文

摘要

本文介绍WorkflowView,一个利用大语言模型将低层次、嘈杂的用户操作序列抽象为可解释的高层次活动的框架,并在浏览器日志、MOOC辍学预测和隐私保护的文档工作流分析中展示了其有效性。

arXiv:2606.14654v1 公告类型:新提交 摘要:时序或带时间戳的交互日志提供了数字应用使用的客观记录,但其粒度和噪声常常掩盖了人们对工作中有意义的洞察。这些洞察对于以真实用户交互为基础改进数字产品至关重要。先前的研究应用深度学习模型将用户操作聚类为高层次活动,但这些方法对噪声非常敏感,且难以跨应用泛化。为克服这一局限,我们提出WorkflowView,一个利用大语言模型(LLM)将低层次操作序列抽象为高层次活动的框架。我们在三个不同且具有挑战性的时序任务及不同领域中验证了方法的有效性和通用性:(a) 从浏览器日志中进行零样本任务描述重构(达到高语义相似度,$\mu_{sim}=0.91$),(b) 使用MOOC交互日志进行少样本学生辍学预测(仅用五个少样本示例即达到加权$F_1=0.90$),(c) 在Microsoft Word文档工作流中,对AI工具集成进行匿名化、隐私保护的分析。我们的工作表明,基于LLM的抽象是将低层次行为数据转化为高层次、可解释且可操作洞察的稳健高效路径。我们还讨论了在日志基础设施中部署基于LLM的推理时的实际考量,包括计算效率和用户隐私。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:13

# 将跨领域操作序列抽象为可解释的工作流
来源:https://arxiv.org/html/2606.14654
###### 摘要

按时间顺序或带时间戳的交互日志提供了数字应用使用的客观记录,但其粒度和噪声常常掩盖了人们对工作内容的有意义洞察。这些洞察对于以真实用户交互为基础改进数字产品至关重要。以往的研究使用深度学习模型将用户操作聚类为高级活动,但这些方法对噪声高度敏感,且难以跨应用泛化。为解决这一局限,我们提出了 WorkflowView,一个利用大语言模型(LLM)将低级操作序列抽象为高级活动的框架。我们在三个不同且具有挑战性的序列任务和多个领域验证了该方法的有效性和通用性:(a) 从浏览器日志中零样本重构任务描述(实现了高语义相似度,μ_sim=0.91);(b) 使用 MOOC 交互日志进行少样本学生辍学预测(仅用五个少样本示例即达到加权 F1=0.90);(c) 对 Microsoft Word 文档工作流中 AI 工具集成进行匿名化、隐私保护的分析。我们的工作表明,基于 LLM 的抽象是将低级行为数据转化为高级、可解释且可操作洞察的一条稳健且高效的路径。我们还讨论了在日志基础设施中部署 LLM 推理的实际考虑因素,包括计算效率和用户隐私。

将跨领域操作序列抽象为可解释的工作流

Gaurav Verma 和 Scott Counts
Microsoft Corporation
{gauravverma,counts}@microsoft.com

## 1 引言

参见图注

图1:我们提出了一个基于 LLM 的框架,用于将用户操作序列分层抽象为可解释的高级活动(WorkflowView)。左侧面板显示了来自三个领域的原始操作序列。WorkflowView 支持具有任务特定可引导性的下游推理,例如重构浏览器中的用户意图、预测 MOOC 中的学生辍学以及隐私保护地分类文档中心化工作流。

当用户与数字应用交互时,每小时都会捕获数 TB 的用户界面(UI)交互日志。这些日志可以无干扰地分析使用模式,便于识别缺陷,并支持迭代部署更符合用户需求的产品改进。UI 交互日志客观记录了用户执行了哪些操作以及何时执行(例如,(DD/MM/YY HH:MM:SS, ClickedLayoutRibbon))。然而,这种带时间戳的操作序列通常过于粒度和嘈杂,难以清晰了解用户在应用中执行的高级任务。一个单一的高级任务(例如,格式化文档内容)可能包含在 10-15 分钟间隔内执行的数百个操作,使得操作序列高度**粒度化**。此外,这些序列可能包含与用户潜在意图不直接相关的操作,引入了**噪声**。例如,当用户出于有意或无意的界面探索而短暂点击不相关功能时。

早期研究通过时间戳交互日志建模理解用户行为,依赖于统计技术,如频繁项集挖掘和序列模式挖掘 [Mannila et al. 1997; Cuke et al. 2009; Agrawal and Srikant 1995; Agrawal et al. 1993]。这些方法被指出难以融入领域上下文,也难以显式建模用户行为中的噪声 [Dev and Liu 2017]。最近的工作探索了将语言建模技术适应于序列日志数据;例如,使用 LSTM 预先识别用户何时可能在应用中需要帮助 [Nambhi et al. 2019],或训练基于 BERT 和 LLM 的分类器来检测日志中的异常 [Guo et al. 2021; Zhou et al. 2024]。虽然这些方法展示了使用语言模型解释交互日志的前景,但它们通常需要在包含数千个标注训练样本的设置中进行任务特定的微调。

受大语言模型跨任务和领域强大泛化能力的驱动,本研究探讨了最先进的 LLM 是否能够解释不遵循自然语言常规语法和语义的真实世界带时间戳操作序列,并推断出用户在工作流中执行的高级活动。LLM 也被认为能够将提供的实例与更广泛的编码知识相结合 [Bai et al. 2024],这可能进一步丰富系统和用户状态的可观测性。为此,我们提出了 WorkflowView,一种使用 LLM 对粒度操作序列进行分层抽象的框架。在 WorkflowView 中,初始层生成观察到的操作的自然语言描述,随后各层推断高级活动,并可选地将其分类到一组已发现或预定义的类别中。为了证明所提出方法的通用性,我们在三个领域评估了 WorkflowView,这些领域在操作集基数和用户行为互斥程度上各不相同。图1(https://arxiv.org/html/2606.14654#S1.F1)显示了该方法的概述。

我们的结果表明,WorkflowView 在跨不同任务和领域的操作序列上提供了可靠的抽象。具体来说,我们发现该方法:(a) 生成与浏览器中执行的 ground-truth 任务高度一致的任务描述(例如,预测:用户试图“按最低价格排序找车”;ground truth:用户想要“找到最便宜的车”);(b) 在仅使用五个上下文示例的情况下,以加权 F1 分数 0.90 预测 MOOC 中学生的辍学(性能可与多个在数千个标注实例上训练的最先进预测模型相媲美);(c) 通过解释操作序列、发现任务类别并执行多类分类,将 Microsoft Word(即文档创建、协作和消费应用)中 AI 工具的使用置于上下文中。我们进一步表明,这种匿名、隐私保护和聚合的洞察可以为以用户为中心的产品改进提供信息。

由于 WorkflowView 依赖于基于 LLM 的操作序列推理,我们讨论了部署时的实际考虑因素,包括成本、延迟和用户隐私,以及我们方法的局限性。我们还勾勒了一个更广阔的愿景,即 LLM 能力更深入地嵌入日志基础设施。这一愿景在人机协作的背景下尤其相关,同时保持对用户隐私和安全的强有力保证。

## 2 相关工作

下文我们将相关工作归类并讨论为三个主题:(a) 交互日志建模,(b) 从用户话语中发现用户意图,以及(c) 使用 LLM 对非语言数据进行建模。

**交互日志建模:** 以往关于解释带时间戳 UI 日志的工作主要将问题框架为模式挖掘或序列建模。诸如频繁项集挖掘和序列模式挖掘等技术已被广泛用于从大型日志语料库中提取常见操作模式(例如,识别频繁出现的操作组)[Mannila et al. 1997; Cuke et al. 2009; Agrawal and Srikant 1995; Agrawal et al. 1993]。虽然这些统计方法在识别重复结构方面有效,但它们大多是与领域无关的:将 UI 操作视为无语义基础的抽象标记 [Dev and Liu 2017],并且对操作序列中的噪声和虚假相关敏感 [Yang et al. 2002]。后续工作通过基于学习的方法(包括 RNN/LSTM 和基于 Transformer 的模型 [Hochreiter and Schmidhuber 1997; Vaswani et al. 2017])部分解决了这些局限,并将其应用于领域特定和任务特定的应用 [Nambhi et al. 2019; Krishna et al. 2018; Zhu et al. 2021]。然而,这些方法依赖于任务特定的训练数据和手工制作的标签,使得在新领域、新任务或不断演变的用户行为中部署成本高昂。相比之下,WorkflowView 通过提示依赖基于 LLM 的推理,无需微调或标注数据即可灵活适应跨任务和领域,同时通过分层推理显式地抽象掉低级噪声。

**用户话语中的意图发现:** 一条相关的研究线专注于从文本交互(如搜索查询 [Wang et al. 2022])或对话系统中的会话话语 [Schuurmans and Frasincar 2019] 推断用户意图。现代对话系统和虚拟助手通常包含一个意图分类模块,将用户输入映射到预定义的任务标签(例如,预订航班或查看天气),通常使用监督学习在大量标注语料库上训练 [Serban et al. 2015]。最近的工作通过聚类超出已知类别的用户查询来探索发现新的或演变的意图 [Shah et al. 2025; Wan et al. 2024]。这一系列工作与我们的工作之间的一个关键区别在于输入的性质:文本话语已经具有语义且可由人解释,并且通常明确编码了用户目标(例如,“找到最便宜的车”或“安排会议”)。相比之下,我们的工作处理的是由低级 UI 事件组成的遥测数据,其中意图必须间接地从嘈杂、粒度的操作序列中推断出来。这种设置在现代应用中既更具挑战性也更为普遍,因此需要能够弥合原始交互日志与高级意图之间差距的方法。

**LLM 用于非语言序列数据:** 除了文本之外,最近的工作考察了 LLM 对非语言数据进行推理的能力。现有方法包括学习投影层以将图像或数值传感器数据映射为适合 LLM 推理的表示 [Verma et al. 2024; Moon et al. 2024],为时间序列分类调整 LLM 嵌入 [Kaur et al. 2025],以及将时间序列重新编程为与 LLM 预训练更自然对齐的文本原型表示 [Jin et al. 2024]。Liu 等人 2024a [Liu et al. 2024a] 证明,像 GPT-4 [Achiam et al. 2023] 这样的现成 LLM 可以超越预训练的零样本基线(并且在许多情况下超越监督模型),用于跨流行病学、金融和天气等领域的数值序列预测。这些结果表明,LLM 可以通过利用大规模预训练期间学到的模式,在一定程度上解释具有有限语言内容的结构化序列。基于这一洞见,WorkflowView 将零样本和少样本 LLM 提示扩展到了用户交互日志领域。

## 3 WorkflowView:使用 LLM 对操作序列进行分层抽象

WorkflowView 是一个简单而有效的框架,利用大语言模型对操作序列进行推理。该方法表明,LLM 可以通过提示在零样本或少样本设置中跨领域解决一系列序列建模任务,突出了无需微调即可轻松定制的特点。为了促进从低级操作到高级活动的逐层抽象,WorkflowView 采用分层设计。我们区分了行为粒度的三个层次:**单个操作**(原子 UI 事件,如一次点击或按键);**高级活动**(从一段操作中抽象出来的连贯、可解释的行为单元,如“审阅评论”);以及**工作流**(这些活动组成的、目标导向的过程,如协作处理文档)。具体而言,操作序列首先被转换为详细的自然语言描述(第 1 层),然后推断这些描述所捕获的高级活动(第 2 层)。如果任务需要,可以引入额外的层来进一步将推断出的高级活动分类为已知或已发现的类别——例如,预测 MOOC 中的学生辍学,或区分活跃的文档编辑与文本格式化。图1(https://arxiv.org/html/2606.14654#S1.F1)提供了该方法以及本文使用数据集示例输出的概览。

分层 LLM 推理基于两个原则:**模块化**和**渐进去噪**。模块化确保了较低层的输出(即操作序列→自然语言描述→高级任务推断)可以通过仅调整较高层而被多个目标(例如在群体层面发现频繁任务,或对单个序列进行分类)重用。渐进去噪对于使用 LLM 建模操作序列至关重要,因为它能够将原始带时间戳的操作转换为更适用于高阶推理的连贯文本表示。例如,较低层可能以自然语言捕获时间模式,如“用户在没有显著活动 N 分钟后响应了协作者的评论”。在这种情况下,低显著性的操作在较早层被去噪,并且根据 N 的值(例如,2 分钟 vs. 10 分钟),后续层可以表征响应评论时所涉及的 deliberation 程度。参见附录 A.2 中关于渐进去噪有效性的讨论。

我们在附录表7、8、9和10中提供了 WorkflowView 中使用的提示,以支持可重复性和未来工作。在下一节中,我们将在跨三个领域的三个任务上评估 WorkflowView:推断浏览器任务、预测 MOOC 中的学生辍学以及将 Microsoft Word 中 AI 工具的使用置于上下文中。考虑到不同领域中操作空间和行为模式的显著变化……

相似文章

WebWatcher:开辟视觉语言深度研究代理新前沿

Papers with Code Trending

WebWatcher 是一个用于深度研究的多模态代理,它利用合成轨迹和强化学习在复杂的视觉与文本信息检索任务中实现了卓越性能。本文还引入了 BrowseComp-VL,这是一个评估多模态代理的新基准。