通过自动具身对话增强推进DialNav发展

arXiv cs.AI 论文

摘要

本文提出了一种自动生成流水线,为DialNav创建大规模训练数据集(RAINbow)。DialNav是一种基于对话的视觉与语言导航任务。结合双策略训练和定位模型,该方法在基线上取得了显著提升。

arXiv:2606.19948v1 公告类型:新 摘要:对于能够进行物理交互的具身智能体,创建和理解对话的能力对于确保安全性和有效性至关重要。虽然DialNav~\cite{han2025dialnav}提供了一个框架,用于在逼真的室内导航中全面评估对话-执行循环,但其性能仍然受到训练数据严重稀缺(2000个片段)的限制。为解决这一问题,我们提出了一种自动生成流水线,并构建了\textbf{RAINbow}数据集,这是一个包含238K个片段的大规模DialNav训练数据集。我们的流水线将现有的VLN数据集转换为多轮对话,并生成了成本效益高且质量高的数据集。此外,我们引入了两个额外的互补性进展以充分发挥数据的潜力:(1)双策略训练,一种导航训练方案,使导航训练与动态对话-导航循环对齐;(2)一个利用VLN知识的定位模型。通过结合这些互补性解决方案,我们的模型在验证集已知(Val Seen)和验证集未知(Val Unseen)上的成功率均大幅超越基线(分别为58.24,\textbf{+89\%};29.05,\textbf{+100\%}),达到了新的最优水平。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:34

# 通过自动化具身对话增强推动DialNav进步
来源:https://arxiv.org/html/2606.19948
Leekyeung Han¹  Sangwon Jung²  Hyunji Min¹  Jinseong Jeong¹  Minyoung Kim¹  Paul Hongsuck Seo¹
¹韩国大学 ²Trillion Labs
{happilee12, daream2, dw9030, omniverse186, phseo}@korea.ac.kr  [email protected]

###### 摘要

对于能够进行物理交互的具身智能体,创造和理解对话的能力对于确保安全性和有效性至关重要。虽然 DialNav (Han et al., 2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 为在逼真室内导航中全面评估对话-执行循环提供了一个框架,但其性能仍然受到训练数据严重稀缺(2K 回合)的限制。为了解决这个问题,我们提出了一个自动生成流水线,并构建了 RAINbow 数据集,这是一个包含 238K 回合的大规模 DialNav 训练数据集。我们的流水线将现有的 VLN 数据集转换为多轮对话,从而创建了高性价比且高质量的数据集。然后,我们引入了两项额外的互补性进展来释放数据的全部潜力:(1) 双策略训练,一种导航训练方案,使导航训练与动态对话-导航循环对齐;(2) 一个利用 VLN 知识的定位模型。通过结合这些互补性解决方案,我们的模型在 Val Seen (58.24, +89%) 和 Val Unseen (29.05, +100%) 分割上的成功率均大幅超过基线,达到了新的最优水平。我们的代码和数据集可在以下网址获取:https://happilee12.github.io/RAINbow

通过自动化具身对话增强推动DialNav进步
Leekyeung Han¹  Sangwon Jung²  Hyunji Min¹  Jinseong Jeong¹  Minyoung Kim¹  Paul Hongsuck Seo¹
¹韩国大学 ²Trillion Labs
{happilee12, daream2, dw9030, omniverse186, phseo}@korea.ac.kr  [email protected]

参见说明
图1: DialNav 任务概览。顶部:导航者从初始节点 b 开始,导航至目标区域 R。由于初始指令不完整,导航者与远程指导者进行多轮对话,以在导航过程中获取更多指导。底部:在每一步中,导航者遵循模块化决策过程:要么自主前进(*导航*),要么请求帮助(*问题生成*)。当提出问题时,远程指导者定位导航者,并提供描述通往目标的下一条路径的答案。这形成了对话与行动的交替循环,直到到达目标区域。

## 1 引言

具身智能体必须以高可靠性运行,因为误解指令或执行错误动作可能会造成人身伤害。启用对话可以提高安全性和任务效率:通过在行动前提问并澄清理解,智能体可以解决歧义并适应动态环境。然而,训练具备对话能力的智能体仍然极具挑战性。收集数据集的成本很高,因为这需要两人实时协调,同时将对话嵌入到给定的任务上下文中。此外,即使有了这样的数据,训练仍然很困难,因为如果行动轨迹或对话偏离了收集的标注,监督信号就会失效。

我们在 DialNav (Han et al., 2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 中研究这些挑战,这是一个基于协作对话的视觉与语言导航(VLN)(Anderson et al., 2018 (https://arxiv.org/html/2606.19948#bib.bib22)) 任务。VLN 是一个具身导航问题,智能体遵循回合开始时给出的固定自然语言指令到达目标。DialNav 将其扩展为基于对话的设置,导航通过交互式对话交流展开。在 DialNav 中,两个智能体——导航者与远程指导者——通过对话协作,在逼真的室内环境(Matterport3D (Chang et al., 2017 (https://arxiv.org/html/2606.19948#bib.bib21)))中完成导航任务。导航者开始时只有一条模糊且不完整的指令(例如,“目标房间有一棵植物”),这不足以到达目标;因此,成功取决于后续的对话。为此,导航者在导航过程中一旦出现不确定性,就主动向指导者请求额外的指导。由于 DialNav 中的远程指导者设置,指导者首先需要根据这个问题来定位导航者,这使得问题至关重要。然后,指导者用上下文相关的指令进行回答,帮助后续的导航决策。

为了训练这样的智能体,Han et al. (2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 首先收集了 RAIN 数据集,这是一个用于 DialNav 的人人交互数据集。然后,导航者和指导者由分离的神经模块建模,这些模块专门针对其组成能力(例如,问题生成、答案生成和导航)。这些模块分别在 RAIN 上训练,然后集成到交互式导航的完整导航-对话循环中。

虽然 Han et al. (2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 引入了第一个 DialNav 数据集和基线模型,但其性能仍然有限。一个关键原因是训练数据的严重稀缺:RAIN 仅包含 2K 回合,不足以支持基于对话的导航的高复杂度。然而,收集人工标注的 DialNav 数据集异常昂贵(例如,2K 回合需要 7,500 美元),因为这需要两人实时协调并将对话嵌入到上下文中。尽管在 VLN 中已经探索了降低人工标注成本的数据集增强技术 (Fried et al., 2018 (https://arxiv.org/html/2606.19948#bib.bib29); Fan et al., 2024 (https://arxiv.org/html/2606.19948#bib.bib49); Wang et al., 2025b (https://arxiv.org/html/2606.19948#bib.bib50)),但这些技术仅限于单轮设置,不能直接应用于 DialNav。

为了解决这一数据稀缺挑战,我们提出了一个自动的 DialNav 回合生成流水线。我们的流水线利用现有的细粒度 VLN 数据集,通过拼接其路径、生成场景描述作为问题,并使用 LLM 将其重新格式化为自然对话。通过这一过程,我们得到了 RAINbow 数据集,其规模比原始 RAIN 数据集大了两个数量级以上。尽管数据规模大幅提升,我们的初步实验表明,当与 Han et al. (2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 中的现有训练框架结合时,仅靠数据增强效果不佳。我们发现 Han et al. (2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 的训练方案无法有效利用增强后的数据。因此,我们采用了双策略训练,这是一种与 DialNav 任务更好对齐的训练方案,能够充分利用我们的规模化多轮基于对话的回合。我们还改进了定位,这是 DialNav 中一个至关重要但尚未充分探索的子任务。这些进展共同使整体导航-对话循环的性能提高了两倍以上:成功率在 Val Seen 上从 30.77 增加到 58.24(+89%),在 Val Unseen 上从 14.52 增加到 29.05(+100%)。我们将公开发布我们的数据集、代码和模型。

总之,我们的贡献有以下三点:

- • 我们构建了 RAINbow 数据集,这是一个大规模数据集,训练数据量比 RAIN 扩大了两个数量级以上。
- • 我们采用了双策略训练,以更好地利用大规模对话数据,并改进了定位——DialNav 中一个尚未充分探索但至关重要的子任务。
- • 我们在 DialNav 上取得了新的最优性能,将成功率相比之前的基线提高了一倍。

## 2 相关工作

**视觉与语言导航。** 视觉与语言导航(VLN)是一个具身 AI 任务,智能体通过遵循自然语言指令在视觉环境中导航。指令可以是粗粒度的 (Zhu et al., 2021a (https://arxiv.org/html/2606.19948#bib.bib26); Qi et al., 2020 (https://arxiv.org/html/2606.19948#bib.bib25)),对于可靠导航通常过于模糊;也可以是细粒度的 (Anderson et al., 2018 (https://arxiv.org/html/2606.19948#bib.bib22); Ku et al., 2020 (https://arxiv.org/html/2606.19948#bib.bib24); Chen et al., 2019 (https://arxiv.org/html/2606.19948#bib.bib37)),往往过于详细且不自然,不适合人类交互。一些早期工作探索了在导航中引入对话或交互 (Thomason et al., 2020 (https://arxiv.org/html/2606.19948#bib.bib23); Roman et al., 2020 (https://arxiv.org/html/2606.19948#bib.bib8); de Vries et al., 2018 (https://arxiv.org/html/2606.19948#bib.bib7); Banerjee et al., 2021 (https://arxiv.org/html/2606.19948#bib.bib9); Nguyen and Daumé III, 2019 (https://arxiv.org/html/2606.19948#bib.bib10); Zhu et al., 2021b (https://arxiv.org/html/2606.19948#bib.bib38))。最近提出的 DialNav 任务 (Han et al., 2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 通过其远程指导者设置和导航-对话循环评估,特别强调对话。尽管 DialNav 提供了一个有价值的基准,但其性能主要受限于数据集规模较小。在这项工作中,我们通过大规模数据增强,并辅以训练改进,提升了 DialNav 的性能。

**VLN 数据集增强。** 数据稀缺是 VLN 中一个众所周知的问题。为了解决这一问题,研究者探索了各种数据增强方法。一些工作专注于训练文本生成模型,为未标注的路径生成新的指令 (Fried et al., 2018 (https://arxiv.org/html/2606.19948#bib.bib29); Zhang and Kordjamshidi, 2023 (https://arxiv.org/html/2606.19948#bib.bib39); Wang et al., 2024a (https://arxiv.org/html/2606.19948#bib.bib40))。其他工作通过编辑现有场景 (Tan et al., 2019 (https://arxiv.org/html/2606.19948#bib.bib44); Liu et al., 2021 (https://arxiv.org/html/2606.19948#bib.bib45); Li et al., 2022 (https://arxiv.org/html/2606.19948#bib.bib46)) 或利用大量额外环境 (Wang et al., 2023c (https://arxiv.org/html/2606.19948#bib.bib33); Chen et al., 2022a (https://arxiv.org/html/2606.19948#bib.bib28); Koh et al., 2022 (https://arxiv.org/html/2606.19948#bib.bib43); Guhur et al., 2021 (https://arxiv.org/html/2606.19948#bib.bib53); Lin et al., 2023 (https://arxiv.org/html/2606.19948#bib.bib52)) 来扩展环境。最近,更先进的方法出现,采用 LLM 生成器或应用额外的过滤与精炼 (Zeng et al., 2023 (https://arxiv.org/html/2606.19948#bib.bib47); Fan et al., 2024 (https://arxiv.org/html/2606.19948#bib.bib49); Kong et al., 2024 (https://arxiv.org/html/2606.19948#bib.bib48); Wang et al., 2025b (https://arxiv.org/html/2606.19948#bib.bib50), 2024b (https://arxiv.org/html/2606.19948#bib.bib51))。然而,这些方法都只专注于生成单轮指令。我们的工作提出了一种简单而强大的流水线,将现有的单轮 VLN 数据集转换为多轮 DialNav 回合。通过这一流水线,我们生成了 RAINbow 数据集,将原始 RAIN 数据集 (Han et al., 2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 的规模扩大了两个数量级以上。

**具身对话。** 具身对话在数据集和训练两方面都面临挑战。为了缓解数据稀缺问题,一些工作探索了利用大型语言模型进行数据增强 (Padmakumar et al., 2023 (https://arxiv.org/html/2606.19948#bib.bib12)) 或基于模板的程序 (Gao et al., 2022 (https://arxiv.org/html/2606.19948#bib.bib3))。在训练方面,许多现有工作主要在静态对话历史上训练和评估模型 (Thomason et al., 2020 (https://arxiv.org/html/2606.19948#bib.bib23); Padmakumar et al., 2022 (https://arxiv.org/html/2606.19948#bib.bib11); Hahn et al., 2020 (https://arxiv.org/html/2606.19948#bib.bib16))。一些工作提出了针对整体执行-对话循环设置的训练方案,使用人类纠正 (de Vries et al., 2018 (https://arxiv.org/html/2606.19948#bib.bib7))、强化学习 (Roman et al., 2020 (https://arxiv.org/html/2606.19948#bib.bib8)) 或对所有可能的对话情况进行训练 (Gao et al., 2022 (https://arxiv.org/html/2606.19948#bib.bib3))。之前关于 DialNav 的工作 (Han et al., 2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 在静态设置下训练智能体,导致了训练-测试不匹配。在这项工作中,受近期发现的启发,即大规模合成训练数据可以显著提升模型能力 (Wang et al., 2024b (https://arxiv.org/html/2606.19948#bib.bib51); Min et al., 2025 (https://arxiv.org/html/2606.19948#bib.bib58)),我们以低成本生成了高质量、良好接地的高质量数据集,并采用了一种训练方案来充分利用这些大规模数据。

## 3 预备知识

**符号表示。** 在 DialNav (Han et al., 2025 (https://arxiv.org/html/2606.19948#bib.bib1)) 中,导航者智能体在远程指导者的帮助下向目标行进,如图 1 (顶部) 所示。形式上,环境表示为一个连通图 \(G=(V,E)\),其中 \(v \in V\) 是一个可导航节点,\(E \subseteq V \times V\) 是节点之间的可导航边集。一个 DialNav 回合 \(\mathcal{E}\) 定义为 \(\mathcal{E} = (G, b, R, I, T_J, D_J)\),其中 \(b \in V\) 是初始节点,\(R \subseteq V\) 是跨越多个相邻节点的目标区域,\(I\) 是初始指令。导航者的完整轨迹 \(\mathcal{T}\) 是在 \(K\) 步中经过的节点序列 \(\mathcal{T} = (v_0, v_1, \ldots, v_K)\),其中 \(v_0 = b\) 且 \(v_K \in R\)。在导航过程中,发生 \(J\) 轮对话,记作 \(D_J = ((q_1, a_1), \ldots, (q_J, a_J))\),每对 \((q_j, a_j)\) 在对话点 \(v_{d_j} \in \mathcal{T}\) 处交换。这 \(J\) 个对话点将完整轨迹 \(\mathcal{T}\) 分割成 \(J+1\) 个子轨迹:\((T^{(0)}, T^{(1)}, \ldots, T^{(J)})\),其中 \(T^{(j)} = (v_{d_j}, \ldots, v_{d_{j+1}-1})\)。

参见说明
图2: 数据集生成流水线概览。 (左) 我们从现有的单轮细粒度 VLN 数据集开始,其中每条路径都与其指令 \(F_j\) 配对。 (中) 多个子轨迹被拼接成一条扩展轨迹。每个子轨迹的起始节点成为对话点 \(v_{d_j}\),并且在每个对话点,使用视觉语言模型生成全景描述 \(C_j\)。原始的细粒度指令 \(F_j\) 被重新用作对话答案,而最后一个节点定义了目标区域 \(R\)。 (右) 描述-指令对 \((C_j, F_j)\) 然后使用大型语言模型重新格式化为自然的多轮对话,为 DialNav 训练生成了大规模的对话式数据。

**导航者与指导者的工作流程。** DialNav 任务作为一个整合所有子任务的完整工作流程展开(图 1 底部)。回合开始时,导航者位于 \(b\),拥有初始指令 \(I\),远程指导者则了解整个环境 \(G\)、目标 \(R\) 和 \(I\)。然后,过程按轮次进行。在每步 \(t\),导航者首先决定是否请求帮助。如果导航者选择不请求帮助而自主前进,它会自主选择下一个动作并移动到节点 \(v_{t+1}\)。如果导航者选择请求帮助,它会生成一个自然语言问题 \(q\)

相似文章

RAD-2:在生成器-判别器框架中扩展强化学习

Hugging Face Daily Papers

RAD-2 提出了一个用于自动驾驶的统一生成器-判别器框架,将基于扩散的轨迹生成与强化学习优化的重排序相结合,与基于扩散的规划器相比,碰撞率降低了56%。该方法引入了 Temporally Consistent Group Relative Policy Optimization 和 BEV-Warp 仿真环境等技术,以实现高效的大规模训练。

JoyAI-VL-Interaction: 实时视觉-语言交互智能

Hugging Face Daily Papers

本文介绍了JoyAI-VL-Interaction,一个开源8B规模的视觉-语言模型,可实时持续运行,自主决定何时响应或委派。它包含一个完整的可部署系统和一个训练配方,在人类评估中优于Doubao和Gemini。