StepGuard：通过单步校准守护网页导航

arXiv cs.AI 2026/06/17 04:00 论文

web-navigation single-step-calibration dynamic-dual-policy-optimization confidence-guided-adaptive-navigation-reflection vision-language-models reinforcement-learning state-of-the-art

摘要

StepGuard 提出了一个结合动态双策略优化（DDPO）和置信引导自适应导航反思（CANR）的框架，以解决网页导航智能体中的奖励不对齐和错误传播问题，实现了最先进的性能。

arXiv:2606.17871v1 公告类型：新摘要：网页导航要求智能体遵循自然语言目标，与网页交互，并生成准确答案。尽管最近的研究利用视觉语言模型和强化学习，现有方法仍因奖励不对齐和错误传播而存在单步脆弱性。为了解决奖励纠缠问题，我们设计了动态双策略优化（DDPO），它在探索时的导航优先模式与问答时的答案优先模式之间动态切换，以缓解奖励冲突。为了校准单步错误，我们提出了置信引导自适应导航反思（CANR），一种估计每步置信度的机制，仅在必要时触发反思，并使用对比奖励鼓励自我修正以校准单步不准确性。以上述组件为核心，我们最终开发了StepGuard，一种通过单步校准守护网页导航的新框架。实验表明，我们的方法显著提高了导航和答案的准确性，在标准网页导航基准上取得了最先进的性能。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:39

# StepGuard：通过单步校准守护网页导航  
来源：https://arxiv.org/html/2606.17871  
崔志豪¹,† \{\}^\{\\textbf\{1\},\\dagger\}张宇辰¹,† \{\}^\{\\textbf\{1\},\\dagger\}孙希阳³ \{\}^\{\\textbf\{3\}\}王亚雄²\* \{\}^\{\\textbf\{2\*\}\}朱莉¹ \{\}^\{\\textbf\{1\}\}胡金鹏² \{\}^\{\\textbf\{2\}\}刘柳² \{\}^\{\\textbf\{2\}\}李嘉梦⁴ \{\}^\{\\textbf\{4\}\}吴玉娇⁵ \{\}^\{\\textbf\{5\}\}  
¹西安交通大学软件工程学院  
²合肥工业大学计算机与信息工程学院  
³厦门大学  
⁴之江实验室  
⁵CSIRO  
†同等贡献。  
*通讯作者：[email protected]  

###### 摘要  
网页导航要求智能体遵循自然语言目标，与网页交互，并生成准确的答案。尽管近期进展借助了视觉语言模型和强化学习，但现有方法仍因奖励错配和错误传播而存在单步脆弱性。为了解决奖励纠缠问题，我们设计了动态双策略优化（DDPO），它在导航优先（用于探索）和答案优先（用于问答）两种模式之间动态切换，以缓解奖励冲突。为了校准单步错误，我们提出了置信度引导的自适应导航反思（CANR），该机制估计每步置信度，仅在必要时触发反思，并利用对比奖励鼓励自我修正以校准单步不准确性。以上述两个组件为核心，我们最终开发了StepGuard——一种通过单步校准守护网页导航的新框架。实验表明，我们的方法显著提升了导航和答案准确性，在标准网页导航基准上取得了新的最优性能。  

![[无标题图片]](https://arxiv.org/html/2606.17871v1/StepGuard_logo.png)  
StepGuard：通过单步校准守护网页导航  
崔志豪¹,† \{\}^\{\\textbf\{1\},\\dagger\}张宇辰¹,† \{\}^\{\\textbf\{1\},\\dagger\}孙希阳³ \{\}^\{\\textbf\{3\}\}王亚雄²\* \{\}^\{\\textbf\{2\*\}\}朱莉¹ \{\}^\{\\textbf\{1\}\}胡金鹏² \{\}^\{\\textbf\{2\}\}刘柳² \{\}^\{\\textbf\{2\}\}李嘉梦⁴ \{\}^\{\\textbf\{4\}\}吴玉娇⁵ \{\}^\{\\textbf\{5\}\}  
¹西安交通大学软件工程学院  
²合肥工业大学计算机与信息工程学院  
³厦门大学  
⁴之江实验室  
⁵CSIRO  
†同等贡献。  
*通讯作者：[email protected]  

## 1 引言  
网页导航旨在让智能体遵循用户的自然语言问题及辅助描述，在网页上执行一系列交互，最终到达目标网页以获取所需信息并生成答案。这一能力对于构建能够主动浏览、搜索和推理在线内容的自主网页智能体至关重要。有效的网页导航支撑着广泛的实际应用，包括智能个人助理、自动信息检索、在线任务执行和决策支持系统，显著改善了用户访问信息和完成网络日常任务的方式。鉴于其实践意义，近年来大量工作致力于解决该问题（Liu等人, 2018 (https://arxiv.org/html/2606.17871#bib.bib10)；Xu等人, 2021 (https://arxiv.org/html/2606.17871#bib.bib11)；Mazumder和Riva, 2021 (https://arxiv.org/html/2606.17871#bib.bib12)；Chang和Bisk, 2021 (https://arxiv.org/html/2606.17871#bib.bib13)；Hsiao等人, 2025 (https://arxiv.org/html/2606.17871#bib.bib14)；Zheng等人, 2024b (https://arxiv.org/html/2606.17871#bib.bib19),a (https://arxiv.org/html/2606.17871#bib.bib18)；Zhou等人, 2024c (https://arxiv.org/html/2606.17871#bib.bib16)）。  

参考图注  
图1：提出的StepGuard概览。与因导航和回答目标纠缠而失败的静态基线(b)不同，StepGuard(a)通过DDPO动态解耦这两个任务，并通过CANR纠正决策，实现了精确的状态自适应执行。  

近期，网页导航因视觉语言模型（VLM）和强化学习（RL）的进步而取得了显著进展。现代VLM，如GPT-4 (OpenAI,2023 (https://arxiv.org/html/2606.17871#bib.bib35))、InternVL (Chen等人,2023 (https://arxiv.org/html/2606.17871#bib.bib9))和Qwen-VL (Bai等人,2025 (https://arxiv.org/html/2606.17871#bib.bib8))，在多模态语境理解、视觉问答和指令跟随方面展现出强大能力，使其成为有效的网页导航基础模型。在这些表示的基础上，强化学习通过与网页环境交互优化动作选择，进一步提升了模型进行序列决策的能力（Bai等人,2024 (https://arxiv.org/html/2606.17871#bib.bib20)；Chen等人,2024b (https://arxiv.org/html/2606.17871#bib.bib21)）。借助精心设计的奖励函数，基于RL的训练显著增强了网页智能体的有效性，在导航和任务完成方面取得了持续的性能提升（Lai等人,2024 (https://arxiv.org/html/2606.17871#bib.bib23)；Qi等人,2025 (https://arxiv.org/html/2606.17871#bib.bib22)；Shinn等人,2023b (https://arxiv.org/html/2606.17871#bib.bib68)）。  

对于网页导航，每一步的准确执行对于整体任务的成功至关重要（Deng等人,2023 (https://arxiv.org/html/2606.17871#bib.bib15)；Zhou等人,2024c (https://arxiv.org/html/2606.17871#bib.bib16)；Yao等人,2022 (https://arxiv.org/html/2606.17871#bib.bib17)）。然而，现有方法在单步层面上仍然脆弱，原因有两个关键问题。首先，当前方法通常同时使用任务级导航和问答奖励来优化智能体，导致优化目标纠缠和冲突（Nakano等人,2021 (https://arxiv.org/html/2606.17871#bib.bib24)；Zhou等人,2024c (https://arxiv.org/html/2606.17871#bib.bib16)）。导航奖励鼓励长时间探索以收集足够信息，而问答奖励则倾向于提前终止并快速生成答案（Raji和Dobbe,2024 (https://arxiv.org/html/2606.17871#bib.bib25)；Jiang等人,2023 (https://arxiv.org/html/2606.17871#bib.bib26)）。这些目标在不同导航状态下可能相互冲突，使得单一策略难以有效兼顾两者（Hayes等人,2022 (https://arxiv.org/html/2606.17871#bib.bib27)）。为了解决这个问题，我们提出了动态双策略优化（DDPO），将策略学习解耦为两种互补模式：导航优先和答案优先。导航优先模式将智能体训练为探索者，优先获取有效信息；答案优先模式则将智能体视为决策者，专注于何时终止导航并生成准确答案。通过根据当前状态在两种模式之间动态切换，DDPO缓解了奖励冲突，实现了更稳定的策略优化。  

其次，现有网页智能体极易受到单步决策错误的影响：一步错误动作可能沿轨迹传播，最终导致导航失败和不准确答案（Shinn等人,2023a (https://arxiv.org/html/2606.17871#bib.bib28)；Zhou等人,2024a (https://arxiv.org/html/2606.17871#bib.bib29)；Valmeekam等人,2023 (https://arxiv.org/html/2606.17871#bib.bib30)）。为了缓解这一问题，我们引入了一种机制，显式建模不确定性并通过反思校准决策。具体而言，我们提出了置信度引导的自适应导航反思（CANR），通过动态反思不确定步骤来增强决策可靠性（Wang等人,2023 (https://arxiv.org/html/2606.17871#bib.bib32)；Tian等人,2023 (https://arxiv.org/html/2606.17871#bib.bib31)）。CANR首先估计每个导航步骤中智能体动作的置信度。基于此置信度，采用动态反思策略，仅在必要时选择性触发反思，避免冗余的重新考虑。当激活时，对比奖励鼓励智能体将其决策修正为更可靠的结果。通过CANR，智能体获得了自我监控、重新思考和优化其动作的能力，从而实现了更鲁棒的长程导航行为。  

以DDPO和CANR为核心组件，我们提出了StepGuard框架。总之，我们强调本文的贡献如下：  

- • **置信度引导的自适应导航反思（CANR）**，为网页智能体赋予了自我监控、选择性反思和优化动作选择的能力，从而实现更鲁棒的长程导航行为。  
- • **动态双策略优化（DDPO）** 策略，通过两种交替训练模式解耦导航和问答目标，从而稳定策略学习并减少来自冲突梯度的振荡。  
- • 在两个公开数据集WebVLN和WebWalkerQA上取得了优越性能。我们的StepGuard在这两个数据集上均达到了与最新模型竞争的性能。  

## 2 相关工作  
**网页智能体中的规划与自我修正。** 为了应对动态网页环境，研究已从线性思维链发展到结构化规划（Sumers等人,2024 (https://arxiv.org/html/2606.17871#bib.bib41)），利用语言记忆（Zheng等人,2024b (https://arxiv.org/html/2606.17871#bib.bib19)；Zhao等人,2024 (https://arxiv.org/html/2606.17871#bib.bib42)）或分层状态抽象（He等人,2024 (https://arxiv.org/html/2606.17871#bib.bib43)；Agashe等人,2025 (https://arxiv.org/html/2606.17871#bib.bib44)；Fu等人,2024 (https://arxiv.org/html/2606.17871#bib.bib45)）来处理长程HTML依赖。然而，基于搜索的鲁棒框架（Zhou等人,2024a (https://arxiv.org/html/2606.17871#bib.bib29)）和迭代批评框架（Gou等人,2024 (https://arxiv.org/html/2606.17871#bib.bib46)；Madaan等人,2023 (https://arxiv.org/html/2606.17871#bib.bib47)）通常因静态的“始终反思”策略而产生高昂计算成本。相比之下，我们的置信度引导的自适应导航反思（CANR）仅在检测到不确定性时动态触发推理，有效优化了规划严谨性与推理效率之间的权衡。  

**用于网页智能体对齐的强化学习。** 虽然监督微调和蒸馏仍然是网页智能体的标准做法（Yin等人,2024 (https://arxiv.org/html/2606.17871#bib.bib48)；OpenAI,2023 (https://arxiv.org/html/2606.17871#bib.bib35)；Zeng等人,2024 (https://arxiv.org/html/2606.17871#bib.bib49)；Qiao等人,2024 (https://arxiv.org/html/2606.17871#bib.bib50)），但它们带来了巨大的数据和训练成本。强化学习（RL）为接地提供了一种数据高效的替代方案（Lyu等人,2025 (https://arxiv.org/html/2606.17871#bib.bib51)）。值得注意的是，DeepSeek-Math (Shao等人,2024 (https://arxiv.org/html/2606.17871#bib.bib52)) 引入了组相对策略优化（GRPO），以在无需密集价值函数的情况下提升推理效率。然而，现有方法如WebRL (Qi等人,2025 (https://arxiv.org/html/2606.17871#bib.bib22)) 在多目标场景下（Wang等人,2025 (https://arxiv.org/html/2606.17871#bib.bib53)）仍然面临奖励纠缠和稀疏性问题。为了缓解这一点，我们的StepGuard框架通过动态双策略优化（DDPO）适配GRPO，通过在探索和答案生成之间取得平衡，有效地对齐轻量级模型。  

## 3 预备知识  
在深入介绍我们的方法细节之前，我们首先简要介绍网页导航（WN）任务和组相对策略优化（GRPO）强化学习算法。  

### 3.1 任务定义  
给定由自然语言问题和目标描述组成的用户指令，WN旨在在网页环境中执行一系列离散动作（时间步），以到达包含所需信息的目标页面并生成正确答案（Liu等人,2024 (https://arxiv.org/html/2606.17871#bib.bib33)；Koh等人,2024 (https://arxiv.org/html/2606.17871#bib.bib34)）。在时间步tt，智能体接收当前环境状态sts\_\{t\}，该状态由以下三个部分组成：(1) 对应当前网页截图的视觉观察；(2) 候选动作集CtC\_\{t\}，包括当前页面上的所有可交互元素；(3) 用户提供的任务指令。智能体根据当前策略πθ\(at∣st\)\\pi\_\{\\theta\}\(a\_\{t\}\\mid s\_\{t\}\)选择一个动作at∈Cta\_\{t\}\\in C\_\{t\}，并与网页环境交互以过渡到下一个状态st\+1s\_\{t\+1\}。动作集CtC\_\{t\}由页面上的可点击元素（如按钮、超链接和下拉菜单项）组成，其大小随页面结构动态变化，使得该任务具有**大动作空间**和**非平稳性**特征。当智能体选择特殊动作[STOP]时，导航阶段结束，模型需要根据当前页面上下文（例如，产品的价格）以自然语言形式生成最终答案。因此，网页导航任务被建模为有限时域马尔可夫决策过程（MDP），目标是在有限步数内最大化导航成功率和答案准确率。  

### 3.2 通过组相对策略优化（GRPO）进行网页导航  
为了解决开放网页环境中离线模仿学习的局限性，本文利用组相对策略优化（GRPO）算法通过在线强化学习来优化网页导航智能体。在每个训练步骤中，策略πθ\\pi\_\{\\theta\}从状态sts\_\{t\}采样KK个候选动作：  
at1,at2,...,atK,atk∼πθ\(⋅∣st\)。\{a\_\{t\}^\{1\},a\_\{t\}^\{2\},\\dots,a\_\{t\}^\{K\}\},\\quad a\_\{t\}^\{k\}\\sim\\pi\_\{\\theta\}\(\\cdot\\mid s\_\{t\}\)。(1)  
每个动作获得一个即时奖励rtkr\_\{t\}^\{k\}。GRPO对奖励进行归一化，并在同一样本组内进行相对比较，以提供无偏的策略更新。GRPO的优化目标定义如下：  
LGRPO=Ea∼πθ\[∑k=1Kσ\(rtk−r¯tτ\)log⁡πθ\(atk∣st\)\]，\\mathcal\{L\}\_\{\\text\{GRPO\}\}=\\mathbb\{E\}\_\{a\\sim\\pi\_\{\\theta\}\}\\left\[\\sum\_\{k=1\}^\{K\}\\sigma\\left\(\\frac\{r\_\{t\}^\{k\}\-\\bar\{r\}\_\{t\}\}\{\\tau\}\\right\)\\log\\pi\_\{\\theta\}\(a\_\{t\}^\{k\}\\mid s\_\{t\}\)\\right\]，(2)  
其中r¯t\\bar\{r\}\_\{t\}表示同组样本的平均奖励：  
r¯t=1K∑k=1Krtk，\\bar\{r\}\_\{t\}=\\frac\{1\}\{K\}\\sum\_\{k=1\}^\{K\}r\_\{t\}^\{k\}，(3)  

## 4 方法论  
参考图注  
图2：StepGuard概览。在每个导航步骤，CANR估计动作判定的置信度并自适应触发反思以抑制单步错误。同时，DDPO通过在导航优先和答案优先模式之间动态切换来解耦步骤级奖励。最后，整个框架使用GRPO算法进行优化。  

### 4.1 概述  
图2 (https://arxiv.org/html/2606.17871#S4.F2) 展示了StepGuard的总体框架。具体而言，StepGuard被设计为一个通用框架，兼容多模态和单模态大语言模型，显示了高度的通用性。在每个状态下，环境观测...

StepGuard：通过单步校准守护网页导航

相似文章

BraveGuard：从开放世界威胁到更安全的计算机使用代理

SafeHarbor：面向LLM代理安全的分层记忆增强护栏

StepPO：面向智能体强化学习的步骤对齐策略优化

OSGuard：计算机使用代理安全基准测试

SafeDiffusion-R1: 在线奖励引导的安全扩散后训练

提交意见反馈