StainFlow: GUI代理中基于实体污点追踪和证据关联的过程奖励机制
摘要
StainFlow为GUI代理引入了一种实体污点流过程奖励模型,通过全局实体污点追踪和局部证据关联来改进强化学习中的信用分配,在AndroidWorld上实现了3.2%的相对提升。
arXiv:2606.07027v1 公告类型: 新
摘要:强化学习(RL)已成为改进长周期、随机数字环境下GUI代理的一种有前途的方法,但轨迹级别的成功反馈过于稀疏,无法为中间探索步骤提供可靠的信用分配。为了缓解这一问题,最近的研究引入了过程奖励模型(PRMs),通过全局里程碑验证或局部步骤级评估提供更细粒度的训练反馈。然而,这些方法仍存在两个级别特定的局限性:全局里程碑分解主观且单一,难以适应真实GUI任务中的多条有效执行路径;而固定的局部判断窗口可能会遗漏长距离关键证据,或用无关帧稀释决策信号。受网络流分析中污点追踪机制的启发,我们提出了StainFlow,一种用于GUI代理的实体污点流过程奖励模型。为了减少全局划分的主观性,我们引入了全局实体污点追踪模块,该模块提取视觉可验证的任务实体,并追踪其污点浓度和状态沿轨迹的演变,从而通过实体证据流的变化客观地分离任务阶段。为了提高局部验证的准确性,我们引入了局部污点证据关联模块。以每个候选关键节点的触发实体为中心,该模块根据其污点浓度和状态变化检索相关步骤,并动态构建高密度证据窗口,用于验证真正的关键节点。在AndroidWorld和OGRBench上的大量实验表明,StainFlow在在线强化学习成功率上相对提升了3.2%,在轨迹完成判断准确率上提升了1.8%。
查看缓存全文
缓存时间: 2026/06/08 09:14
# StainFlow: GUI智能体中过程奖赏的实体痕迹追踪与证据连接 来源: https://arxiv.org/abs/2606.07027 作者:郝杰 (https://arxiv.org/search/cs?searchtype=author&query=Hao,+H), 郝龙坤 (https://arxiv.org/search/cs?searchtype=author&query=Hao,+L), 娄一航 (https://arxiv.org/search/cs?searchtype=author&query=Lou,+Y), 白岩 (https://arxiv.org/search/cs?searchtype=author&query=Bai,+Y), 李振阳 (https://arxiv.org/search/cs?searchtype=author&query=Li,+Z), 杨智超 (https://arxiv.org/search/cs?searchtype=author&query=Yang,+Z), 黄东硕 (https://arxiv.org/search/cs?searchtype=author&query=Huang,+D), 林宏宇 (https://arxiv.org/search/cs?searchtype=author&query=Lin,+H), 洪兰青 (https://arxiv.org/search/cs?searchtype=author&query=Hong,+L), 王佳凯 (https://arxiv.org/search/cs?searchtype=author&query=Wang,+J), 刘祥龙 (https://arxiv.org/search/cs?searchtype=author&query=Liu,+X) 查看 PDF (https://arxiv.org/pdf/2606.07027) > 摘要:强化学习(RL)已成为提升GUI智能体在长视界、随机数字环境中表现的有效方法,但轨迹级的成功反馈过于稀疏,无法对中间探索步骤提供可靠的信用分配。为缓解这一问题,近期研究引入了过程奖励模型(PRMs),通过全局里程碑验证或局部步骤级评估提供更细粒度的训练反馈。然而,这些方法仍面临两个层面的局限性:全局里程碑分解具有主观性和单一性,难以适应真实GUI任务中多条有效执行路径;而固定的局部判断窗口可能遗漏远程关键证据,或引入无关帧稀释决策信号。受网络流分析中痕迹追踪机制的启发,我们提出StainFlow——一种面向GUI智能体的实体痕迹流过程奖励模型。为降低全局划分的主观性,我们引入全局实体痕迹追踪模块,提取视觉可验证的任务实体,并追踪其痕迹浓度和状态沿轨迹的演变过程,从而根据实体证据流的变化客观分离任务阶段。为提高局部验证的准确性,我们引入局部痕迹证据连接模块。该模块以每个候选关键节点的触发实体为中心,根据其痕迹浓度和状态变化检索相关步骤,并动态构建高密度证据窗口用于验证真正关键节点。在AndroidWorld和OGRBench上的广泛实验表明,StainFlow在在线RL成功率上相对提升了3.2%,在轨迹完成判断准确率上相对提升了1.8%。 ## 提交历史 来自:郝杰 \[查看邮箱 (https://arxiv.org/show-email/693681c8/2606.07027)\] **\[v1\]** 2026年6月5日,星期五,08:17:28 UTC (6,157 KB)
相似文章
TRACE:面向LLM智能体的自适应跨步证据聚合轨迹推理
TRACE是一个用于长周期LLM智能体轨迹的监控框架,它通过分诊-检查-判断(Triage-Inspect-Judge)循环来连接时间上相隔较远的动作证据,在规避性破坏检测任务上实现了高召回率和F1值。
奖励始终存在于你的数据中:使用判别器引导的强化学习修正流匹配
本文提出判别器引导的强化学习(DRL),通过使用预训练表示空间中的判别器作为最优奖励信号,来修正分数匹配和流匹配模型中的对齐问题,无需人类偏好即可显著提升视觉保真度和语义质量。
@HuggingPapers: Stable-GFlowNet:通过对比轨迹平衡实现多样化且鲁棒的 LLM 红队测试 Naver AI 消除了不稳定的…
Naver AI 推出了 Stable-GFlowNet,这是一种通过对比轨迹平衡来消除生成流网络中不稳定的配分函数估计,从而改善 LLM 红队测试的方法。
MobileForge:基于分层反馈引导策略优化的免标注移动GUI智能体适配
MobileForge提出了一种针对移动GUI智能体的免标注适配系统,该系统利用真实应用交互和分层反馈引导的策略优化来提升性能,在AndroidWorld上使用开放数据取得了接近最优的结果。
面向GUI代理的技能引导连续蒸馏
该论文提出了技能引导连续蒸馏(SGCD),这是一个迭代式自我改进框架,利用技能引导策略在闭环执行过程中为偏离轨迹的状态生成监督信号,将OSWorld-Verified上GUI代理的成功率从约30%提升至超过50%。