从汽车维修指令中学习互补动作建模

arXiv cs.CL 2026/06/29 04:00 论文

摘要

本文介绍了互补动作建模（CAM）任务，该任务通过修改动作短语并保持上下文不变，来识别或生成汽车维修指令的程序性对应物。作者使用一个德国汽车数据集，通过候选匹配和受控序列到序列生成来研究这些互补指令的建模。

arXiv:2606.27808v1 公告类型：新摘要：即使句子其余部分保持不变，微小的词汇变化也可能逆转指令的程序性含义。在汽车维修指令中，这种模式通常表现为动作短语将指令转换为其程序性对应物。实体、修饰语和周围上下文基本保持不变，而动作短语决定了程序性关系。我们将此任务定义为互补动作建模（CAM）。给定一条维修指令，目标是通过修改动作短语并保留剩余句子上下文，来识别或生成其程序性对应物。该任务聚焦于三个方面：区分互补性与表面相似性、在动作短语级别控制生成、以及使用检索、重叠和人工评估来评估关系正确性。我们使用一个德国汽车维修数据集，通过候选匹配和受控序列到序列生成来研究这些问题。结果表明，互补维修指令最好被建模为基于微妙词汇线索的程序性关联。因此，它们不应被视为普通的句子相似性或同义词改写案例。

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:24

# 从汽车维修说明中学习互补动作建模
来源：https://arxiv.org/html/2606.27808
吴佳琪1,2,\*李白3,\*Jochen Hartmann2Martin Gaedke3Sander Stuijk1 1埃因霍温理工大学，荷兰埃因霍温 2宝马集团，德国慕尼黑 3开姆尼茨工业大学，德国开姆尼茨 \*同等贡献。通讯作者：[email protected], [email protected]

###### 摘要

即使句子其余部分保持不变，一个微小的词汇变化也可能逆转指令的程序性含义。在汽车维修说明中，这种模式通常出现在一个动作短语将指令转变为程序性对应短语时。实体、修饰语和周围上下文基本不变，而动作短语决定了程序性关系。我们将此任务定义为互补动作建模（Complementary Action Modeling, CAM）。给定一条维修指令，目标是通过修改动作短语同时保留其余句子上下文，识别或生成其程序性对应短语。该任务关注三个方面：区分互补性与表面相似性、在动作短语层面控制生成、以及使用检索、重叠度和人工评估来评估关系正确性。使用德国汽车维修数据集，我们通过候选匹配和受控的序列到序列生成来研究这些问题。结果表明，互补维修指令最好被建模为基于细微词汇线索的程序性关联，因此不应被视为普通的句子相似性或基于同义词的释义案例。

学习互补动作建模从汽车维修说明中

吴佳琪1,2,\*李白3,\*Jochen Hartmann2Martin Gaedke3Sander Stuijk1 1埃因霍温理工大学，荷兰埃因霍温 2宝马集团，德国慕尼黑 3开姆尼茨工业大学，德国开姆尼茨 \*同等贡献。通讯作者：[email protected], [email protected]

## 1 引言

给人类操作员和机器人的维修说明中，微小的词汇变化可能决定其动作的方向和目标。虽然周围上下文几乎保持不变，但动作短语内的差异决定了特定组件是要安装还是拆卸。实际的操作行为必须以智能系统能可靠解释的形式表示。这种能力与具身智能和语言引导系统相关，这些系统必须区分相似动作并识别对同一对象执行的互补操作（ichter等人，2023 (https://arxiv.org/html/2606.27808#bib.bib15)；Zitkovich等人，2023 (https://arxiv.org/html/2606.27808#bib.bib16)）。我们定义互补动作建模（CAM）来解决这个问题。图1 (https://arxiv.org/html/2606.27808#S1.F1)展示了CAM的示意图。

参见图标题图1：互补动作建模（CAM）示意图。CAM保留非动作上下文，同时将动作短语转换为其互补对应短语。现有的程序性文本基准并未完全涵盖这个问题的场景。这一点在以程序性段落和动态世界跟踪为中心的基准场景中尤为明显（Dalvi等人，2018 (https://arxiv.org/html/2606.27808#bib.bib1)）。然而，汽车维修说明高度重复。词汇使用的严格约束通常只允许在非常狭窄的片段内进行变化。当替换动作短语以改变程序性关系时，句子的其余部分保持不变。这一特征使CAM区别于标准的语义相似性任务；在词汇层面最相似的指令，在实际操作意义上可能完全不正确。它也不是典型的释义生成任务，因为其目标不是保留句子的整体含义，而是实现对操作关系的受控转换。此外，它也不是矛盾检测任务，因为其重点在于单个工作流程中嵌入的互补程序性对应关系，而非更广泛意义上的句子级不兼容性。

明确定义CAM的另一个理由在于方法论层面。除了评估神经模型，本工作遵循一个经过人工验证的工作流，用于问题形式化、数据构建和结果解释。理解维修程序的结构需要领域知识，这为用于形式化互补关系的基于规则的对齐过程提供了依据。然后通过选择性人工验证处理模糊动作，同时使用基于学习的模型在确定性规则模式之外进行泛化。

在这个意义上，CAM反映了轻量级人机协作形式：人类专业知识定义和验证程序性关系，而计算模型将此知识扩展到更大的维修指令集合。可信赖的人工判断对于确保下游建模管道的可靠性仍然重要（Bakaev等人，2020 (https://arxiv.org/html/2606.27808#bib.bib17)）。

CAM也可以视为领域特定程序性文档的辅助建模任务，其中最终用户和领域专家可能受益于使隐含程序性关系显式化的系统（Esposito等人，2023 (https://arxiv.org/html/2606.27808#bib.bib18)）。在这种设置中，对比模型检索结构化程序中已有的互补动作对，而生成模型测试是否可以通过受控的动作级生成产生互补对应项。

本研究提出三个研究问题。(1) 模型能否区分互补性与表面相似性？这个问题至关重要，因为互补指令通常共享大部分词元，使得词汇重叠成为程序性关系的不良代理。(2) 生成模型能否仅修改动作短语，而不是自由重写整个句子？流畅的输出并不足够：生成的句子可能看起来语法正确，但如果它改变了正确的上下文或保留了源动作，仍然会失败。(3) 如何评估CAM？基于重叠的文本生成指标可能会奖励那些保持接近源文本的输出，即使它们没有表达预期的互补关系。因此也需要关系敏感的检索指标和针对性的人工评估。为回答这些问题，我们在一个源自德国汽车维修手册的数据集上研究CAM，111匿名数据集和实验资源将在接收后为研究目的公开发布。其中汽车指令组织在层次化的维修程序中。我们通过候选匹配和受控的序列到序列生成来检验任务。互补维修指令应被建模为基于细微词汇线索的程序性关联，而不是被视为普通释义或矛盾的实例。

## 2 相关工作

CAM与三个研究方向相关：程序性文本理解、工业信息提取与语义匹配、以及程序性生成。与先前工作不同，CAM聚焦于高度重复的汽车维修指令中的互补动作关系，其中微小的词汇变化改变程序性关系，而大部分上下文保持不变。

程序性文本理解建模指令文本中的动作、实体和状态变化。现有基准关注于跟踪过程描述中的实体状态（Dalvi等人，2018 (https://arxiv.org/html/2606.27808#bib.bib1)），基于Transformer的方法进一步改进了实体跟踪（Gupta和Durrett，2019 (https://arxiv.org/html/2606.27808#bib.bib2)）。其他工作引入了更丰富的结构，如动态知识图谱和实体-动作-位置推理图（Das等人，2018 (https://arxiv.org/html/2606.27808#bib.bib3)；Huang等人，2021 (https://arxiv.org/html/2606.27808#bib.bib4)）。这些研究主要针对策展领域，其中状态变化和程序顺序通常是显式的。

工业信息提取经常使用基于规则或混合方法，因为它们可解释且能编码专家知识。基于规则的系统在有限监督的企业环境中仍然有用（Chiticariu等人，2013 (https://arxiv.org/html/2606.27808#bib.bib5)），但对语言变化和隐含动作语义的鲁棒性较差。对比学习为语义匹配提供了一种数据驱动替代方案。InfoNCE风格目标从正负例中学习成对对齐（van den Oord等人，2018 (https://arxiv.org/html/2606.27808#bib.bib6)），尽管随机实例级评估可能忽略结构重复文档中的泄露问题（Søgaard等人，2021 (https://arxiv.org/html/2606.27808#bib.bib12)）。

生成式和基于脚本的模型将程序性知识视为动作生成或事件预测。神经清单、状态感知和预训练语言模型已被用于生成连贯的程序性步骤（Kiddon等人，2016 (https://arxiv.org/html/2606.27808#bib.bib7)；Dhingra等人，2018 (https://arxiv.org/html/2606.27808#bib.bib8)；H. Lee等人，2020 (https://arxiv.org/html/2606.27808#bib.bib9)）。检索增强和基于脚本的方法进一步融入了外部步骤或事件知识（Nishimura等人，2019 (https://arxiv.org/html/2606.27808#bib.bib10)；Sakaguchi等人，2021 (https://arxiv.org/html/2606.27808#bib.bib11)）。然而，反向或互补动作关系通常只被间接处理。更广泛的事件关系研究（Zhou等人，2022 (https://arxiv.org/html/2606.27808#bib.bib13)；Zhu等人，2023 (https://arxiv.org/html/2606.27808#bib.bib14)）提出了相关方向，但汽车维修说明中的互补动作关系仍未得到充分探索。

## 3 数据集构建

本节描述如何从德国汽车维修手册构建用于互补动作建模（CAM）的数据集。我们的目标是收集成对的维修指令，同时保留程序性结构。汽车维修手册描述了针对对象、工具和中间状态的目标导向动作序列，其解释依赖于上下文结构。

### 3.1 源维修手册

我们的源文档是由原始设备制造商（OEM）提供的汽车维修手册。这些手册将维修和保养程序描述为结构化的文本指令，按层级组织为维修任务、维修过程和维修步骤。

维修任务指定了一个高级维修目标。每个任务被分解为多个维修过程，每个过程由细粒度的维修步骤组成，这些步骤以简短的祈使句表达。在本工作中，我们在单个维修步骤级别上操作，但我们保留过程成员身份作为基本的上下文变量。维修手册中的互补关系出现在连贯的程序性上下文中，例如拆卸和组装工作流程。

为了保留这种结构，我们将每个维修过程表示为一个*桶*，并为同一过程中的所有步骤分配相同的*桶标识符*。桶结构保留了局部程序性上下文，并支持后续的基于过程的评估划分。

### 3.2 基于规则的互补动作对构建

我们通过一个两阶段基于规则的对齐管道，结合人工验证，来构建互补动作对。第一阶段在过程级别操作，识别可能处于互补关系的候选过程对，例如拆卸和组装过程。第二阶段在每个匹配的过程对内操作，对齐单个维修步骤。

规则匹配过程的核心是一个策划的德语互补动作表达词表。首先根据兼容的动作对立关系识别候选对，例如安装/拆卸、连接/断开、拧紧/松开。检测到候选动作对后，移除匹配的动作表达式，剩余的承载对象和上下文的文本被称为动作剥离骨架，然后在候选对之间进行比较。当动作剥离骨架完全匹配或仅存在保守的表面变体时，保留候选对。

为了处理这种变体，规则匹配过程结合了近似字符串匹配和白名单式归一化规则。这些规则容忍无害的词序差异、轻量修饰语和同义词替换，例如 *vorsichtig*（“小心地”）或 *wie abgebildet*（“如图所示”）。同时，规则匹配过程应用硬性程序性约束以避免错误对齐。特别地，涉及侧边和位置敏感的表达式被视为不兼容信号，因此如果指令指代不同的物理位置，则即使其他方面相似也不匹配。

在步骤级别，管道还利用共享的插图引用，这在高度重复的维修子过程中特别有用，其中多个步骤仅在局部对象引用上有所不同。

尽管基于规则的管道可以检测某些一对多对应关系，例如分组拆除螺丝的操作对应多个后续的紧固步骤，但这些情况被排除在最终的学习基准之外。我们仅保留高置信度的一对一互补对，以便为下游基于学习的实验保持明确的检索和生成设置。

### 3.3 人工验证与来源

人工验证是选择性的，并非对所有自动提出的对进行。高置信度案例包括严格规则匹配和白名单支持的匹配。那些不能被这些确定性规则解决但在更宽松的近似匹配下仍然合理的候选者，被导出供人工审查，其中模糊的候选者被确认或拒绝。

我们保留来源标签，指示一对是通过严格规则匹配、白名单支持的归一化、还是近似匹配加人工确认获得的。这种来源将规则解决的情况与更模糊的语义情况区分开。在我们语料库级别的审计中，基于规则的匹配管道在人工干预之前解决了大约59%的最终互补对，而其余保留的对由于词汇差异、隐含组件引用或依赖于上下文的表述而需要人工裁决。

这种区分使得在规则解决与规则未解决的情况之间实现自然分离。规则解决的情况主要受显式的词汇和结构规律支配，而规则未解决的情况代表语义上更困难的实例，这些实例无法通过确定性启发式单独可靠恢复。

在去重并筛选高置信度一对一对齐后，最终基准包含1,459个互补指令对。每个对与其原始维修过程桶和来源标签相关联。这些标注后来支持基于过程的评估划分以及规则解决与规则未解决的分析。

基于规则的管道在本工作中服务于两个目的：它

从汽车维修指令中学习互补动作建模

相似文章

基于宏动作的多智能体指令遵循：价值取消方法

RepWAM：基于表征视觉-动作分词器的世界动作建模

从动作引导中学习智能体策略

COMPASS：面向安全搜索智能体的认知MCTS引导过程对齐

通过对话场景建模和意图-关键词桥接增强目标导向主动对话系统

提交意见反馈