StepGuard:通过单步校准守护网页导航

arXiv cs.AI 论文

摘要

StepGuard 提出了一个结合动态双策略优化(DDPO)和置信引导自适应导航反思(CANR)的框架,以解决网页导航智能体中的奖励不对齐和错误传播问题,实现了最先进的性能。

arXiv:2606.17871v1 公告类型:新 摘要:网页导航要求智能体遵循自然语言目标,与网页交互,并生成准确答案。尽管最近的研究利用视觉语言模型和强化学习,现有方法仍因奖励不对齐和错误传播而存在单步脆弱性。为了解决奖励纠缠问题,我们设计了动态双策略优化(DDPO),它在探索时的导航优先模式与问答时的答案优先模式之间动态切换,以缓解奖励冲突。为了校准单步错误,我们提出了置信引导自适应导航反思(CANR),一种估计每步置信度的机制,仅在必要时触发反思,并使用对比奖励鼓励自我修正以校准单步不准确性。以上述组件为核心,我们最终开发了StepGuard,一种通过单步校准守护网页导航的新框架。实验表明,我们的方法显著提高了导航和答案的准确性,在标准网页导航基准上取得了最先进的性能。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:39

# StepGuard:通过单步校准守护网页导航  
来源:https://arxiv.org/html/2606.17871  
崔志豪¹,† \{\}^\{\\textbf\{1\},\\dagger\}张宇辰¹,† \{\}^\{\\textbf\{1\},\\dagger\}孙希阳³ \{\}^\{\\textbf\{3\}\}王亚雄²\* \{\}^\{\\textbf\{2\*\}\}朱莉¹ \{\}^\{\\textbf\{1\}\}胡金鹏² \{\}^\{\\textbf\{2\}\}刘柳² \{\}^\{\\textbf\{2\}\}李嘉梦⁴ \{\}^\{\\textbf\{4\}\}吴玉娇⁵ \{\}^\{\\textbf\{5\}\}  
¹西安交通大学软件工程学院  
²合肥工业大学计算机与信息工程学院  
³厦门大学  
⁴之江实验室  
⁵CSIRO  
†同等贡献。  
*通讯作者:[email protected]  

###### 摘要  
网页导航要求智能体遵循自然语言目标,与网页交互,并生成准确的答案。尽管近期进展借助了视觉语言模型和强化学习,但现有方法仍因奖励错配和错误传播而存在单步脆弱性。为了解决奖励纠缠问题,我们设计了动态双策略优化(DDPO),它在导航优先(用于探索)和答案优先(用于问答)两种模式之间动态切换,以缓解奖励冲突。为了校准单步错误,我们提出了置信度引导的自适应导航反思(CANR),该机制估计每步置信度,仅在必要时触发反思,并利用对比奖励鼓励自我修正以校准单步不准确性。以上述两个组件为核心,我们最终开发了StepGuard——一种通过单步校准守护网页导航的新框架。实验表明,我们的方法显著提升了导航和答案准确性,在标准网页导航基准上取得了新的最优性能。  

![[无标题图片]](https://arxiv.org/html/2606.17871v1/StepGuard_logo.png)  
StepGuard:通过单步校准守护网页导航  
崔志豪¹,† \{\}^\{\\textbf\{1\},\\dagger\}张宇辰¹,† \{\}^\{\\textbf\{1\},\\dagger\}孙希阳³ \{\}^\{\\textbf\{3\}\}王亚雄²\* \{\}^\{\\textbf\{2\*\}\}朱莉¹ \{\}^\{\\textbf\{1\}\}胡金鹏² \{\}^\{\\textbf\{2\}\}刘柳² \{\}^\{\\textbf\{2\}\}李嘉梦⁴ \{\}^\{\\textbf\{4\}\}吴玉娇⁵ \{\}^\{\\textbf\{5\}\}  
¹西安交通大学软件工程学院  
²合肥工业大学计算机与信息工程学院  
³厦门大学  
⁴之江实验室  
⁵CSIRO  
†同等贡献。  
*通讯作者:[email protected]  

## 1 引言  
网页导航旨在让智能体遵循用户的自然语言问题及辅助描述,在网页上执行一系列交互,最终到达目标网页以获取所需信息并生成答案。这一能力对于构建能够主动浏览、搜索和推理在线内容的自主网页智能体至关重要。有效的网页导航支撑着广泛的实际应用,包括智能个人助理、自动信息检索、在线任务执行和决策支持系统,显著改善了用户访问信息和完成网络日常任务的方式。鉴于其实践意义,近年来大量工作致力于解决该问题(Liu等人, 2018 (https://arxiv.org/html/2606.17871#bib.bib10);Xu等人, 2021 (https://arxiv.org/html/2606.17871#bib.bib11);Mazumder和Riva, 2021 (https://arxiv.org/html/2606.17871#bib.bib12);Chang和Bisk, 2021 (https://arxiv.org/html/2606.17871#bib.bib13);Hsiao等人, 2025 (https://arxiv.org/html/2606.17871#bib.bib14);Zheng等人, 2024b (https://arxiv.org/html/2606.17871#bib.bib19),a (https://arxiv.org/html/2606.17871#bib.bib18);Zhou等人, 2024c (https://arxiv.org/html/2606.17871#bib.bib16))。  

参考图注  
图1:提出的StepGuard概览。与因导航和回答目标纠缠而失败的静态基线(b)不同,StepGuard(a)通过DDPO动态解耦这两个任务,并通过CANR纠正决策,实现了精确的状态自适应执行。  

近期,网页导航因视觉语言模型(VLM)和强化学习(RL)的进步而取得了显著进展。现代VLM,如GPT-4 (OpenAI,2023 (https://arxiv.org/html/2606.17871#bib.bib35))、InternVL (Chen等人,2023 (https://arxiv.org/html/2606.17871#bib.bib9))和Qwen-VL (Bai等人,2025 (https://arxiv.org/html/2606.17871#bib.bib8)),在多模态语境理解、视觉问答和指令跟随方面展现出强大能力,使其成为有效的网页导航基础模型。在这些表示的基础上,强化学习通过与网页环境交互优化动作选择,进一步提升了模型进行序列决策的能力(Bai等人,2024 (https://arxiv.org/html/2606.17871#bib.bib20);Chen等人,2024b (https://arxiv.org/html/2606.17871#bib.bib21))。借助精心设计的奖励函数,基于RL的训练显著增强了网页智能体的有效性,在导航和任务完成方面取得了持续的性能提升(Lai等人,2024 (https://arxiv.org/html/2606.17871#bib.bib23);Qi等人,2025 (https://arxiv.org/html/2606.17871#bib.bib22);Shinn等人,2023b (https://arxiv.org/html/2606.17871#bib.bib68))。  

对于网页导航,每一步的准确执行对于整体任务的成功至关重要(Deng等人,2023 (https://arxiv.org/html/2606.17871#bib.bib15);Zhou等人,2024c (https://arxiv.org/html/2606.17871#bib.bib16);Yao等人,2022 (https://arxiv.org/html/2606.17871#bib.bib17))。然而,现有方法在单步层面上仍然脆弱,原因有两个关键问题。首先,当前方法通常同时使用任务级导航和问答奖励来优化智能体,导致优化目标纠缠和冲突(Nakano等人,2021 (https://arxiv.org/html/2606.17871#bib.bib24);Zhou等人,2024c (https://arxiv.org/html/2606.17871#bib.bib16))。导航奖励鼓励长时间探索以收集足够信息,而问答奖励则倾向于提前终止并快速生成答案(Raji和Dobbe,2024 (https://arxiv.org/html/2606.17871#bib.bib25);Jiang等人,2023 (https://arxiv.org/html/2606.17871#bib.bib26))。这些目标在不同导航状态下可能相互冲突,使得单一策略难以有效兼顾两者(Hayes等人,2022 (https://arxiv.org/html/2606.17871#bib.bib27))。为了解决这个问题,我们提出了动态双策略优化(DDPO),将策略学习解耦为两种互补模式:导航优先和答案优先。导航优先模式将智能体训练为探索者,优先获取有效信息;答案优先模式则将智能体视为决策者,专注于何时终止导航并生成准确答案。通过根据当前状态在两种模式之间动态切换,DDPO缓解了奖励冲突,实现了更稳定的策略优化。  

其次,现有网页智能体极易受到单步决策错误的影响:一步错误动作可能沿轨迹传播,最终导致导航失败和不准确答案(Shinn等人,2023a (https://arxiv.org/html/2606.17871#bib.bib28);Zhou等人,2024a (https://arxiv.org/html/2606.17871#bib.bib29);Valmeekam等人,2023 (https://arxiv.org/html/2606.17871#bib.bib30))。为了缓解这一问题,我们引入了一种机制,显式建模不确定性并通过反思校准决策。具体而言,我们提出了置信度引导的自适应导航反思(CANR),通过动态反思不确定步骤来增强决策可靠性(Wang等人,2023 (https://arxiv.org/html/2606.17871#bib.bib32);Tian等人,2023 (https://arxiv.org/html/2606.17871#bib.bib31))。CANR首先估计每个导航步骤中智能体动作的置信度。基于此置信度,采用动态反思策略,仅在必要时选择性触发反思,避免冗余的重新考虑。当激活时,对比奖励鼓励智能体将其决策修正为更可靠的结果。通过CANR,智能体获得了自我监控、重新思考和优化其动作的能力,从而实现了更鲁棒的长程导航行为。  

以DDPO和CANR为核心组件,我们提出了StepGuard框架。总之,我们强调本文的贡献如下:  

- • **置信度引导的自适应导航反思(CANR)**,为网页智能体赋予了自我监控、选择性反思和优化动作选择的能力,从而实现更鲁棒的长程导航行为。  
- • **动态双策略优化(DDPO)** 策略,通过两种交替训练模式解耦导航和问答目标,从而稳定策略学习并减少来自冲突梯度的振荡。  
- • 在两个公开数据集WebVLN和WebWalkerQA上取得了优越性能。我们的StepGuard在这两个数据集上均达到了与最新模型竞争的性能。  

## 2 相关工作  
**网页智能体中的规划与自我修正。** 为了应对动态网页环境,研究已从线性思维链发展到结构化规划(Sumers等人,2024 (https://arxiv.org/html/2606.17871#bib.bib41)),利用语言记忆(Zheng等人,2024b (https://arxiv.org/html/2606.17871#bib.bib19);Zhao等人,2024 (https://arxiv.org/html/2606.17871#bib.bib42))或分层状态抽象(He等人,2024 (https://arxiv.org/html/2606.17871#bib.bib43);Agashe等人,2025 (https://arxiv.org/html/2606.17871#bib.bib44);Fu等人,2024 (https://arxiv.org/html/2606.17871#bib.bib45))来处理长程HTML依赖。然而,基于搜索的鲁棒框架(Zhou等人,2024a (https://arxiv.org/html/2606.17871#bib.bib29))和迭代批评框架(Gou等人,2024 (https://arxiv.org/html/2606.17871#bib.bib46);Madaan等人,2023 (https://arxiv.org/html/2606.17871#bib.bib47))通常因静态的“始终反思”策略而产生高昂计算成本。相比之下,我们的置信度引导的自适应导航反思(CANR)仅在检测到不确定性时动态触发推理,有效优化了规划严谨性与推理效率之间的权衡。  

**用于网页智能体对齐的强化学习。** 虽然监督微调和蒸馏仍然是网页智能体的标准做法(Yin等人,2024 (https://arxiv.org/html/2606.17871#bib.bib48);OpenAI,2023 (https://arxiv.org/html/2606.17871#bib.bib35);Zeng等人,2024 (https://arxiv.org/html/2606.17871#bib.bib49);Qiao等人,2024 (https://arxiv.org/html/2606.17871#bib.bib50)),但它们带来了巨大的数据和训练成本。强化学习(RL)为接地提供了一种数据高效的替代方案(Lyu等人,2025 (https://arxiv.org/html/2606.17871#bib.bib51))。值得注意的是,DeepSeek-Math (Shao等人,2024 (https://arxiv.org/html/2606.17871#bib.bib52)) 引入了组相对策略优化(GRPO),以在无需密集价值函数的情况下提升推理效率。然而,现有方法如WebRL (Qi等人,2025 (https://arxiv.org/html/2606.17871#bib.bib22)) 在多目标场景下(Wang等人,2025 (https://arxiv.org/html/2606.17871#bib.bib53))仍然面临奖励纠缠和稀疏性问题。为了缓解这一点,我们的StepGuard框架通过动态双策略优化(DDPO)适配GRPO,通过在探索和答案生成之间取得平衡,有效地对齐轻量级模型。  

## 3 预备知识  
在深入介绍我们的方法细节之前,我们首先简要介绍网页导航(WN)任务和组相对策略优化(GRPO)强化学习算法。  

### 3.1 任务定义  
给定由自然语言问题和目标描述组成的用户指令,WN旨在在网页环境中执行一系列离散动作(时间步),以到达包含所需信息的目标页面并生成正确答案(Liu等人,2024 (https://arxiv.org/html/2606.17871#bib.bib33);Koh等人,2024 (https://arxiv.org/html/2606.17871#bib.bib34))。在时间步tt,智能体接收当前环境状态sts\_\{t\},该状态由以下三个部分组成:(1) 对应当前网页截图的视觉观察;(2) 候选动作集CtC\_\{t\},包括当前页面上的所有可交互元素;(3) 用户提供的任务指令。智能体根据当前策略πθ\(at∣st\)\\pi\_\{\\theta\}\(a\_\{t\}\\mid s\_\{t\}\)选择一个动作at∈Cta\_\{t\}\\in C\_\{t\},并与网页环境交互以过渡到下一个状态st\+1s\_\{t\+1\}。动作集CtC\_\{t\}由页面上的可点击元素(如按钮、超链接和下拉菜单项)组成,其大小随页面结构动态变化,使得该任务具有**大动作空间**和**非平稳性**特征。当智能体选择特殊动作[STOP]时,导航阶段结束,模型需要根据当前页面上下文(例如,产品的价格)以自然语言形式生成最终答案。因此,网页导航任务被建模为有限时域马尔可夫决策过程(MDP),目标是在有限步数内最大化导航成功率和答案准确率。  

### 3.2 通过组相对策略优化(GRPO)进行网页导航  
为了解决开放网页环境中离线模仿学习的局限性,本文利用组相对策略优化(GRPO)算法通过在线强化学习来优化网页导航智能体。在每个训练步骤中,策略πθ\\pi\_\{\\theta\}从状态sts\_\{t\}采样KK个候选动作:  
at1,at2,...,atK,atk∼πθ\(⋅∣st\)。\{a\_\{t\}^\{1\},a\_\{t\}^\{2\},\\dots,a\_\{t\}^\{K\}\},\\quad a\_\{t\}^\{k\}\\sim\\pi\_\{\\theta\}\(\\cdot\\mid s\_\{t\}\)。(1)  
每个动作获得一个即时奖励rtkr\_\{t\}^\{k\}。GRPO对奖励进行归一化,并在同一样本组内进行相对比较,以提供无偏的策略更新。GRPO的优化目标定义如下:  
LGRPO=Ea∼πθ\[∑k=1Kσ\(rtk−r¯tτ\)log⁡πθ\(atk∣st\)\],\\mathcal\{L\}\_\{\\text\{GRPO\}\}=\\mathbb\{E\}\_\{a\\sim\\pi\_\{\\theta\}\}\\left\[\\sum\_\{k=1\}^\{K\}\\sigma\\left\(\\frac\{r\_\{t\}^\{k\}\-\\bar\{r\}\_\{t\}\}\{\\tau\}\\right\)\\log\\pi\_\{\\theta\}\(a\_\{t\}^\{k\}\\mid s\_\{t\}\)\\right\],(2)  
其中r¯t\\bar\{r\}\_\{t\}表示同组样本的平均奖励:  
r¯t=1K∑k=1Krtk,\\bar\{r\}\_\{t\}=\\frac\{1\}\{K\}\\sum\_\{k=1\}^\{K\}r\_\{t\}^\{k\},(3)  

## 4 方法论  
参考图注  
图2:StepGuard概览。在每个导航步骤,CANR估计动作判定的置信度并自适应触发反思以抑制单步错误。同时,DDPO通过在导航优先和答案优先模式之间动态切换来解耦步骤级奖励。最后,整个框架使用GRPO算法进行优化。  

### 4.1 概述  
图2 (https://arxiv.org/html/2606.17871#S4.F2) 展示了StepGuard的总体框架。具体而言,StepGuard被设计为一个通用框架,兼容多模态和单模态大语言模型,显示了高度的通用性。在每个状态下,环境观测...

相似文章

BraveGuard:从开放世界威胁到更安全的计算机使用代理

Hugging Face Daily Papers

BraveGuard 是一个自我演化的防御框架,通过利用开放世界威胁信号和真实的代理轨迹来训练防护模型,从而提升计算机使用代理的安全检测能力,在 AgentHazard 基准上取得了显著的准确率提升。

OSGuard:计算机使用代理安全基准测试

arXiv cs.AI

OSGuard是一个双粒度基准测试,用于在良性用户指令下评估计算机使用代理的安全性,包含动作级判断和风险增强执行套件,以检测不安全捷径。

SafeDiffusion-R1: 在线奖励引导的安全扩散后训练

Hugging Face Daily Papers

SafeDiffusion-R1 引入了一个基于 GRPO 和引导奖励机制的在线强化学习框架,用于提升扩散模型的安全性,无需监督数据或奖励调优,在多个有害类别上实现了最先进的性能。