StainFlow: GUI代理中基于实体污点追踪和证据关联的过程奖励机制

arXiv cs.AI 论文

摘要

StainFlow为GUI代理引入了一种实体污点流过程奖励模型,通过全局实体污点追踪和局部证据关联来改进强化学习中的信用分配,在AndroidWorld上实现了3.2%的相对提升。

arXiv:2606.07027v1 公告类型: 新 摘要:强化学习(RL)已成为改进长周期、随机数字环境下GUI代理的一种有前途的方法,但轨迹级别的成功反馈过于稀疏,无法为中间探索步骤提供可靠的信用分配。为了缓解这一问题,最近的研究引入了过程奖励模型(PRMs),通过全局里程碑验证或局部步骤级评估提供更细粒度的训练反馈。然而,这些方法仍存在两个级别特定的局限性:全局里程碑分解主观且单一,难以适应真实GUI任务中的多条有效执行路径;而固定的局部判断窗口可能会遗漏长距离关键证据,或用无关帧稀释决策信号。受网络流分析中污点追踪机制的启发,我们提出了StainFlow,一种用于GUI代理的实体污点流过程奖励模型。为了减少全局划分的主观性,我们引入了全局实体污点追踪模块,该模块提取视觉可验证的任务实体,并追踪其污点浓度和状态沿轨迹的演变,从而通过实体证据流的变化客观地分离任务阶段。为了提高局部验证的准确性,我们引入了局部污点证据关联模块。以每个候选关键节点的触发实体为中心,该模块根据其污点浓度和状态变化检索相关步骤,并动态构建高密度证据窗口,用于验证真正的关键节点。在AndroidWorld和OGRBench上的大量实验表明,StainFlow在在线强化学习成功率上相对提升了3.2%,在轨迹完成判断准确率上提升了1.8%。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:14

# StainFlow: GUI智能体中过程奖赏的实体痕迹追踪与证据连接
来源: https://arxiv.org/abs/2606.07027
作者:郝杰 (https://arxiv.org/search/cs?searchtype=author&query=Hao,+H), 郝龙坤 (https://arxiv.org/search/cs?searchtype=author&query=Hao,+L), 娄一航 (https://arxiv.org/search/cs?searchtype=author&query=Lou,+Y), 白岩 (https://arxiv.org/search/cs?searchtype=author&query=Bai,+Y), 李振阳 (https://arxiv.org/search/cs?searchtype=author&query=Li,+Z), 杨智超 (https://arxiv.org/search/cs?searchtype=author&query=Yang,+Z), 黄东硕 (https://arxiv.org/search/cs?searchtype=author&query=Huang,+D), 林宏宇 (https://arxiv.org/search/cs?searchtype=author&query=Lin,+H), 洪兰青 (https://arxiv.org/search/cs?searchtype=author&query=Hong,+L), 王佳凯 (https://arxiv.org/search/cs?searchtype=author&query=Wang,+J), 刘祥龙 (https://arxiv.org/search/cs?searchtype=author&query=Liu,+X)

查看 PDF (https://arxiv.org/pdf/2606.07027)

> 摘要:强化学习(RL)已成为提升GUI智能体在长视界、随机数字环境中表现的有效方法,但轨迹级的成功反馈过于稀疏,无法对中间探索步骤提供可靠的信用分配。为缓解这一问题,近期研究引入了过程奖励模型(PRMs),通过全局里程碑验证或局部步骤级评估提供更细粒度的训练反馈。然而,这些方法仍面临两个层面的局限性:全局里程碑分解具有主观性和单一性,难以适应真实GUI任务中多条有效执行路径;而固定的局部判断窗口可能遗漏远程关键证据,或引入无关帧稀释决策信号。受网络流分析中痕迹追踪机制的启发,我们提出StainFlow——一种面向GUI智能体的实体痕迹流过程奖励模型。为降低全局划分的主观性,我们引入全局实体痕迹追踪模块,提取视觉可验证的任务实体,并追踪其痕迹浓度和状态沿轨迹的演变过程,从而根据实体证据流的变化客观分离任务阶段。为提高局部验证的准确性,我们引入局部痕迹证据连接模块。该模块以每个候选关键节点的触发实体为中心,根据其痕迹浓度和状态变化检索相关步骤,并动态构建高密度证据窗口用于验证真正关键节点。在AndroidWorld和OGRBench上的广泛实验表明,StainFlow在在线RL成功率上相对提升了3.2%,在轨迹完成判断准确率上相对提升了1.8%。

## 提交历史

来自:郝杰 \[查看邮箱 (https://arxiv.org/show-email/693681c8/2606.07027)\] **\[v1\]** 2026年6月5日,星期五,08:17:28 UTC (6,157 KB)

相似文章

面向GUI代理的技能引导连续蒸馏

arXiv cs.AI

该论文提出了技能引导连续蒸馏(SGCD),这是一个迭代式自我改进框架,利用技能引导策略在闭环执行过程中为偏离轨迹的状态生成监督信号,将OSWorld-Verified上GUI代理的成功率从约30%提升至超过50%。