通过自动具身对话增强推进DialNav发展

arXiv cs.AI 2026/06/20 04:00 论文

embodied-ai navigation dialog dataset-augmentation vln dialnav automatic-pipeline

摘要

本文提出了一种自动生成流水线，为DialNav创建大规模训练数据集（RAINbow）。DialNav是一种基于对话的视觉与语言导航任务。结合双策略训练和定位模型，该方法在基线上取得了显著提升。

arXiv:2606.19948v1 公告类型：新摘要：对于能够进行物理交互的具身智能体，创建和理解对话的能力对于确保安全性和有效性至关重要。虽然DialNav~\cite{han2025dialnav}提供了一个框架，用于在逼真的室内导航中全面评估对话-执行循环，但其性能仍然受到训练数据严重稀缺（2000个片段）的限制。为解决这一问题，我们提出了一种自动生成流水线，并构建了\textbf{RAINbow}数据集，这是一个包含238K个片段的大规模DialNav训练数据集。我们的流水线将现有的VLN数据集转换为多轮对话，并生成了成本效益高且质量高的数据集。此外，我们引入了两个额外的互补性进展以充分发挥数据的潜力：（1）双策略训练，一种导航训练方案，使导航训练与动态对话-导航循环对齐；（2）一个利用VLN知识的定位模型。通过结合这些互补性解决方案，我们的模型在验证集已知（Val Seen）和验证集未知（Val Unseen）上的成功率均大幅超越基线（分别为58.24，\textbf{+89\%}；29.05，\textbf{+100\%}），达到了新的最优水平。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:34

# 通过自动化具身对话增强推动DialNav进步
来源：https://arxiv.org/html/2606.19948
Leekyeung Han¹  Sangwon Jung²  Hyunji Min¹  Jinseong Jeong¹  Minyoung Kim¹  Paul Hongsuck Seo¹
¹韩国大学 ²Trillion Labs
{happilee12, daream2, dw9030, omniverse186, phseo}@korea.ac.kr  [email protected]

###### 摘要

对于能够进行物理交互的具身智能体，创造和理解对话的能力对于确保安全性和有效性至关重要。虽然 DialNav (Han et al., 2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 为在逼真室内导航中全面评估对话-执行循环提供了一个框架，但其性能仍然受到训练数据严重稀缺（2K 回合）的限制。为了解决这个问题，我们提出了一个自动生成流水线，并构建了 RAINbow 数据集，这是一个包含 238K 回合的大规模 DialNav 训练数据集。我们的流水线将现有的 VLN 数据集转换为多轮对话，从而创建了高性价比且高质量的数据集。然后，我们引入了两项额外的互补性进展来释放数据的全部潜力：(1) 双策略训练，一种导航训练方案，使导航训练与动态对话-导航循环对齐；(2) 一个利用 VLN 知识的定位模型。通过结合这些互补性解决方案，我们的模型在 Val Seen (58.24, +89%) 和 Val Unseen (29.05, +100%) 分割上的成功率均大幅超过基线，达到了新的最优水平。我们的代码和数据集可在以下网址获取：https://happilee12.github.io/RAINbow

通过自动化具身对话增强推动DialNav进步
Leekyeung Han¹  Sangwon Jung²  Hyunji Min¹  Jinseong Jeong¹  Minyoung Kim¹  Paul Hongsuck Seo¹
¹韩国大学 ²Trillion Labs
{happilee12, daream2, dw9030, omniverse186, phseo}@korea.ac.kr  [email protected]

参见说明
图1: DialNav 任务概览。顶部：导航者从初始节点 b 开始，导航至目标区域 R。由于初始指令不完整，导航者与远程指导者进行多轮对话，以在导航过程中获取更多指导。底部：在每一步中，导航者遵循模块化决策过程：要么自主前进（*导航*），要么请求帮助（*问题生成*）。当提出问题时，远程指导者定位导航者，并提供描述通往目标的下一条路径的答案。这形成了对话与行动的交替循环，直到到达目标区域。

## 1 引言

具身智能体必须以高可靠性运行，因为误解指令或执行错误动作可能会造成人身伤害。启用对话可以提高安全性和任务效率：通过在行动前提问并澄清理解，智能体可以解决歧义并适应动态环境。然而，训练具备对话能力的智能体仍然极具挑战性。收集数据集的成本很高，因为这需要两人实时协调，同时将对话嵌入到给定的任务上下文中。此外，即使有了这样的数据，训练仍然很困难，因为如果行动轨迹或对话偏离了收集的标注，监督信号就会失效。

我们在 DialNav (Han et al., 2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 中研究这些挑战，这是一个基于协作对话的视觉与语言导航（VLN）(Anderson et al., 2018 (https://arxiv.org/html/2606.19948#bib.bib22)) 任务。VLN 是一个具身导航问题，智能体遵循回合开始时给出的固定自然语言指令到达目标。DialNav 将其扩展为基于对话的设置，导航通过交互式对话交流展开。在 DialNav 中，两个智能体——导航者与远程指导者——通过对话协作，在逼真的室内环境（Matterport3D (Chang et al., 2017 (https://arxiv.org/html/2606.19948#bib.bib21))）中完成导航任务。导航者开始时只有一条模糊且不完整的指令（例如，“目标房间有一棵植物”），这不足以到达目标；因此，成功取决于后续的对话。为此，导航者在导航过程中一旦出现不确定性，就主动向指导者请求额外的指导。由于 DialNav 中的远程指导者设置，指导者首先需要根据这个问题来定位导航者，这使得问题至关重要。然后，指导者用上下文相关的指令进行回答，帮助后续的导航决策。

为了训练这样的智能体，Han et al. (2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 首先收集了 RAIN 数据集，这是一个用于 DialNav 的人人交互数据集。然后，导航者和指导者由分离的神经模块建模，这些模块专门针对其组成能力（例如，问题生成、答案生成和导航）。这些模块分别在 RAIN 上训练，然后集成到交互式导航的完整导航-对话循环中。

虽然 Han et al. (2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 引入了第一个 DialNav 数据集和基线模型，但其性能仍然有限。一个关键原因是训练数据的严重稀缺：RAIN 仅包含 2K 回合，不足以支持基于对话的导航的高复杂度。然而，收集人工标注的 DialNav 数据集异常昂贵（例如，2K 回合需要 7,500 美元），因为这需要两人实时协调并将对话嵌入到上下文中。尽管在 VLN 中已经探索了降低人工标注成本的数据集增强技术 (Fried et al., 2018 (https://arxiv.org/html/2606.19948#bib.bib29); Fan et al., 2024 (https://arxiv.org/html/2606.19948#bib.bib49); Wang et al., 2025b (https://arxiv.org/html/2606.19948#bib.bib50))，但这些技术仅限于单轮设置，不能直接应用于 DialNav。

为了解决这一数据稀缺挑战，我们提出了一个自动的 DialNav 回合生成流水线。我们的流水线利用现有的细粒度 VLN 数据集，通过拼接其路径、生成场景描述作为问题，并使用 LLM 将其重新格式化为自然对话。通过这一过程，我们得到了 RAINbow 数据集，其规模比原始 RAIN 数据集大了两个数量级以上。尽管数据规模大幅提升，我们的初步实验表明，当与 Han et al. (2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 中的现有训练框架结合时，仅靠数据增强效果不佳。我们发现 Han et al. (2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 的训练方案无法有效利用增强后的数据。因此，我们采用了双策略训练，这是一种与 DialNav 任务更好对齐的训练方案，能够充分利用我们的规模化多轮基于对话的回合。我们还改进了定位，这是 DialNav 中一个至关重要但尚未充分探索的子任务。这些进展共同使整体导航-对话循环的性能提高了两倍以上：成功率在 Val Seen 上从 30.77 增加到 58.24（+89%），在 Val Unseen 上从 14.52 增加到 29.05（+100%）。我们将公开发布我们的数据集、代码和模型。

总之，我们的贡献有以下三点：

- • 我们构建了 RAINbow 数据集，这是一个大规模数据集，训练数据量比 RAIN 扩大了两个数量级以上。
- • 我们采用了双策略训练，以更好地利用大规模对话数据，并改进了定位——DialNav 中一个尚未充分探索但至关重要的子任务。
- • 我们在 DialNav 上取得了新的最优性能，将成功率相比之前的基线提高了一倍。

## 2 相关工作

**视觉与语言导航。** 视觉与语言导航（VLN）是一个具身 AI 任务，智能体通过遵循自然语言指令在视觉环境中导航。指令可以是粗粒度的 (Zhu et al., 2021a (https://arxiv.org/html/2606.19948#bib.bib26); Qi et al., 2020 (https://arxiv.org/html/2606.19948#bib.bib25))，对于可靠导航通常过于模糊；也可以是细粒度的 (Anderson et al., 2018 (https://arxiv.org/html/2606.19948#bib.bib22); Ku et al., 2020 (https://arxiv.org/html/2606.19948#bib.bib24); Chen et al., 2019 (https://arxiv.org/html/2606.19948#bib.bib37))，往往过于详细且不自然，不适合人类交互。一些早期工作探索了在导航中引入对话或交互 (Thomason et al., 2020 (https://arxiv.org/html/2606.19948#bib.bib23); Roman et al., 2020 (https://arxiv.org/html/2606.19948#bib.bib8); de Vries et al., 2018 (https://arxiv.org/html/2606.19948#bib.bib7); Banerjee et al., 2021 (https://arxiv.org/html/2606.19948#bib.bib9); Nguyen and Daumé III, 2019 (https://arxiv.org/html/2606.19948#bib.bib10); Zhu et al., 2021b (https://arxiv.org/html/2606.19948#bib.bib38))。最近提出的 DialNav 任务 (Han et al., 2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 通过其远程指导者设置和导航-对话循环评估，特别强调对话。尽管 DialNav 提供了一个有价值的基准，但其性能主要受限于数据集规模较小。在这项工作中，我们通过大规模数据增强，并辅以训练改进，提升了 DialNav 的性能。

**VLN 数据集增强。** 数据稀缺是 VLN 中一个众所周知的问题。为了解决这一问题，研究者探索了各种数据增强方法。一些工作专注于训练文本生成模型，为未标注的路径生成新的指令 (Fried et al., 2018 (https://arxiv.org/html/2606.19948#bib.bib29); Zhang and Kordjamshidi, 2023 (https://arxiv.org/html/2606.19948#bib.bib39); Wang et al., 2024a (https://arxiv.org/html/2606.19948#bib.bib40))。其他工作通过编辑现有场景 (Tan et al., 2019 (https://arxiv.org/html/2606.19948#bib.bib44); Liu et al., 2021 (https://arxiv.org/html/2606.19948#bib.bib45); Li et al., 2022 (https://arxiv.org/html/2606.19948#bib.bib46)) 或利用大量额外环境 (Wang et al., 2023c (https://arxiv.org/html/2606.19948#bib.bib33); Chen et al., 2022a (https://arxiv.org/html/2606.19948#bib.bib28); Koh et al., 2022 (https://arxiv.org/html/2606.19948#bib.bib43); Guhur et al., 2021 (https://arxiv.org/html/2606.19948#bib.bib53); Lin et al., 2023 (https://arxiv.org/html/2606.19948#bib.bib52)) 来扩展环境。最近，更先进的方法出现，采用 LLM 生成器或应用额外的过滤与精炼 (Zeng et al., 2023 (https://arxiv.org/html/2606.19948#bib.bib47); Fan et al., 2024 (https://arxiv.org/html/2606.19948#bib.bib49); Kong et al., 2024 (https://arxiv.org/html/2606.19948#bib.bib48); Wang et al., 2025b (https://arxiv.org/html/2606.19948#bib.bib50), 2024b (https://arxiv.org/html/2606.19948#bib.bib51))。然而，这些方法都只专注于生成单轮指令。我们的工作提出了一种简单而强大的流水线，将现有的单轮 VLN 数据集转换为多轮 DialNav 回合。通过这一流水线，我们生成了 RAINbow 数据集，将原始 RAIN 数据集 (Han et al., 2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 的规模扩大了两个数量级以上。

**具身对话。** 具身对话在数据集和训练两方面都面临挑战。为了缓解数据稀缺问题，一些工作探索了利用大型语言模型进行数据增强 (Padmakumar et al., 2023 (https://arxiv.org/html/2606.19948#bib.bib12)) 或基于模板的程序 (Gao et al., 2022 (https://arxiv.org/html/2606.19948#bib.bib3))。在训练方面，许多现有工作主要在静态对话历史上训练和评估模型 (Thomason et al., 2020 (https://arxiv.org/html/2606.19948#bib.bib23); Padmakumar et al., 2022 (https://arxiv.org/html/2606.19948#bib.bib11); Hahn et al., 2020 (https://arxiv.org/html/2606.19948#bib.bib16))。一些工作提出了针对整体执行-对话循环设置的训练方案，使用人类纠正 (de Vries et al., 2018 (https://arxiv.org/html/2606.19948#bib.bib7))、强化学习 (Roman et al., 2020 (https://arxiv.org/html/2606.19948#bib.bib8)) 或对所有可能的对话情况进行训练 (Gao et al., 2022 (https://arxiv.org/html/2606.19948#bib.bib3))。之前关于 DialNav 的工作 (Han et al., 2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 在静态设置下训练智能体，导致了训练-测试不匹配。在这项工作中，受近期发现的启发，即大规模合成训练数据可以显著提升模型能力 (Wang et al., 2024b (https://arxiv.org/html/2606.19948#bib.bib51); Min et al., 2025 (https://arxiv.org/html/2606.19948#bib.bib58))，我们以低成本生成了高质量、良好接地的高质量数据集，并采用了一种训练方案来充分利用这些大规模数据。

## 3 预备知识

**符号表示。** 在 DialNav (Han et al., 2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 中，导航者智能体在远程指导者的帮助下向目标行进，如图 1 (顶部) 所示。形式上，环境表示为一个连通图 \(G=(V,E)\)，其中 \(v \in V\) 是一个可导航节点，\(E \subseteq V \times V\) 是节点之间的可导航边集。一个 DialNav 回合 \(\mathcal{E}\) 定义为 \(\mathcal{E} = (G, b, R, I, T_J, D_J)\)，其中 \(b \in V\) 是初始节点，\(R \subseteq V\) 是跨越多个相邻节点的目标区域，\(I\) 是初始指令。导航者的完整轨迹 \(\mathcal{T}\) 是在 \(K\) 步中经过的节点序列 \(\mathcal{T} = (v_0, v_1, \ldots, v_K)\)，其中 \(v_0 = b\) 且 \(v_K \in R\)。在导航过程中，发生 \(J\) 轮对话，记作 \(D_J = ((q_1, a_1), \ldots, (q_J, a_J))\)，每对 \((q_j, a_j)\) 在对话点 \(v_{d_j} \in \mathcal{T}\) 处交换。这 \(J\) 个对话点将完整轨迹 \(\mathcal{T}\) 分割成 \(J+1\) 个子轨迹：\((T^{(0)}, T^{(1)}, \ldots, T^{(J)})\)，其中 \(T^{(j)} = (v_{d_j}, \ldots, v_{d_{j+1}-1})\)。

参见说明
图2: 数据集生成流水线概览。 (左) 我们从现有的单轮细粒度 VLN 数据集开始，其中每条路径都与其指令 \(F_j\) 配对。 (中) 多个子轨迹被拼接成一条扩展轨迹。每个子轨迹的起始节点成为对话点 \(v_{d_j}\)，并且在每个对话点，使用视觉语言模型生成全景描述 \(C_j\)。原始的细粒度指令 \(F_j\) 被重新用作对话答案，而最后一个节点定义了目标区域 \(R\)。 (右) 描述-指令对 \((C_j, F_j)\) 然后使用大型语言模型重新格式化为自然的多轮对话，为 DialNav 训练生成了大规模的对话式数据。

**导航者与指导者的工作流程。** DialNav 任务作为一个整合所有子任务的完整工作流程展开（图 1 底部）。回合开始时，导航者位于 \(b\)，拥有初始指令 \(I\)，远程指导者则了解整个环境 \(G\)、目标 \(R\) 和 \(I\)。然后，过程按轮次进行。在每步 \(t\)，导航者首先决定是否请求帮助。如果导航者选择不请求帮助而自主前进，它会自主选择下一个动作并移动到节点 \(v_{t+1}\)。如果导航者选择请求帮助，它会生成一个自然语言问题 \(q\)

通过自动具身对话增强推进DialNav发展

相似文章

UP-NRPA：基于用户画像的嵌套展开策略自适应方法，用于面向目标对话系统中大语言模型的规划

PersonaDrive：面向闭环驾驶仿真的基于人类风格的检索增强VLA智能体

检索，而非重新训练：在测试时将视觉语言动作模型扩展到新任务

RAD-2：在生成器-判别器框架中扩展强化学习

JoyAI-VL-Interaction: 实时视觉-语言交互智能

提交意见反馈