EVLA：用于物理基础驾驶推理与控制的电感知多模态助手

arXiv cs.CL 2026/06/30 04:00 论文

摘要

介绍了EVLA，这是一个通过实时感知电动动力总成状态来增强视觉-语言驾驶助手，从而实现能量最优和物理基础决策的框架。

arXiv:2606.28938v1 公告类型：新摘要：现代视觉-语言模型（VLM）在驾驶助手中通常将车辆动力学视为黑箱，导致决策缺乏对车辆实时机电状态的感知。为弥补这一差距，我们提出了电-视觉-语言助手（EVLA）——一种新颖的框架，它结合了多模态场景理解与对电动动力总成状态（如电机扭矩、电池SOC）的实时感知。我们的方法包含两个关键创新：首先，一个统一共状态编码器（UCSE），它将视觉、文本和车辆状态输入融合到一个共享的潜在表示中，并通过能量效率场来建模空间能量成本；其次，一个电感知结构推理链（ESRC），它用基于物理约束和优化目标的内部确定性推理过程取代了外部思维链提示。通过物理引导的联合损失进行端到端训练，EVLA学习生成上下文感知和能量最优的驾驶决策。在驾驶问答基准上的广泛评估表明，EVLA显著优于强微调的VLM基线，最终得分提高了0.0871，准确率提高了5.6%。消融研究验证了每个组件的必要性，效率分析表明EVLA的推理速度比多阶段流水线快36%。这项工作强调了整合车辆状态感知和结构化物理推理对于开发下一代基于物理的驾驶助手至关重要。

查看原文

查看缓存全文

缓存时间: 2026/06/30 05:28

# EVLA：用于物理接地驾驶推理与控制的电感知多模态助手

来源：https://arxiv.org/html/2606.28938

刘宇鑫 陈子涵 王浩宇 张铭轩 林瑞杰 赵思远

计算机科学与技术学院 浙江大学 杭州，浙江，中国

###### 摘要

现代面向驾驶助手的视觉-语言模型（VLM）通常将车辆动力学视为黑箱，导致决策缺乏对车辆实时机电状态的理解。为弥补这一不足，我们提出了电-视觉-语言助手（EVLA）——一种新颖框架，它将多模态场景理解与电动动力系统实时状态（如电机扭矩、电池SOC）感知相结合。我们的方法包含两大核心创新：首先，统一共状态编码器（UCSE）将视觉、文本和车辆状态输入融合为共享潜在表征，并辅以能量效率场来建模空间能量成本；其次，电感知结构化推理链（ESRC）用基于物理约束和优化目标的内部确定性推理过程取代外部思维链提示。通过物理引导联合损失的端到端训练，EVLA 能够生成语境感知且能量最优的驾驶决策。在驾驶问答基准上的广泛评估表明，EVLA 显著优于强微调 VLM 基线，最终得分提升 +0.0871，准确率提升 +5.6%。消融研究验证了每个组件的必要性，效率分析显示 EVLA 比多阶段流水线推理速度快 36%。这项工作强调，整合车辆状态感知和结构化物理推理对于开发下一代物理接地的驾驶助手至关重要。

参考说明 图1：EVLA 的动机。现有的视觉-语言驾驶助手忽略了电动动力系统状态，导致物理不接地的推理和不可靠的控制。EVLA 明确整合视觉感知、语言指令和车辆状态信息，实现能量感知且物理接地的驾驶决策。

## 1 引言

近年来，视觉-语言模型（VLM）在智能驾驶系统中展现出巨大潜力。通过联合处理视觉场景和自然语言，VLM 能够解释路况、检测障碍物并回答关于驾驶环境的复杂查询，从而增强自主智能体的推理能力和情境感知（Zhou 等人，2024 (https://arxiv.org/html/2606.28938#bib.bib9)；Xu 等人，2024 (https://arxiv.org/html/2606.28938#bib.bib8)；Liu 等人，2023 (https://arxiv.org/html/2606.28938#bib.bib7)；Zhou 等人，2025 (https://arxiv.org/html/2606.28938#bib.bib46)；Qi 等人，2022 (https://arxiv.org/html/2606.28938#bib.bib30)）。这一进展体现在诸如 CVPR 2024 Driving with Language 挑战赛等基准上，该挑战赛聚焦于开发能够使用多视图图像输入处理多种驾驶问题的模型。尽管取得了这些进展，但一个根本性限制依然存在。现有基于 VLM 的驾驶方法大多作为被动的视觉问答系统运行。它们将自动驾驶车辆视为黑箱，缺乏对其内部机电状态（包括电机扭矩、电池荷电状态或热限制）的显式理解。这一疏忽阻碍了对诸如能量高效规划等任务的全面推理，因为这些任务的决策必须整合外部场景语义和内部车辆动力学（Wu 等人，2024a (https://arxiv.org/html/2606.28938#bib.bib36)；Tian 等人，2025 (https://arxiv.org/html/2606.28938#bib.bib38)）。来自物理信息车道变换意图预测的补充证据表明，显式编码运动学和交互安全变量能够实质性改善在直道高速和匝道场景中的机动预测，尤其是当预测时域增加时（Shi 等人，2025 (https://arxiv.org/html/2606.28938#bib.bib77)）。

此外，当前方法通常依赖启发式后处理或非结构化、开放式的思维链提示，这可能损害鲁棒性和物理一致性（Lin，2025a (https://arxiv.org/html/2606.28938#bib.bib40)；He 等人，2025b (https://arxiv.org/html/2606.28938#bib.bib42)）。为填补这一空白，我们提出了电-视觉-语言助手（EVLA），一种专为状态感知、物理接地的驾驶辅助而设计的新颖框架。受 Qu 和 Ma（2025 (https://arxiv.org/html/2606.28938#bib.bib29)）、Song 等人（2025 (https://arxiv.org/html/2606.28938#bib.bib43)）的启发，并基于 Wu 等人（2024b (https://arxiv.org/html/2606.28938#bib.bib35), c (https://arxiv.org/html/2606.28938#bib.bib32)）和 Cao 等人（2025b (https://arxiv.org/html/2606.28938#bib.bib49)）的工作，我们的主要贡献在于一种统一架构，该架构无缝整合视觉感知、语言理解和实时动力系统状态推理，通过场景动态与车辆物理的联合建模实现卓越性能。具体而言，我们的工作引入三项关键创新。首先，扩展 Wu 等人（2022 (https://arxiv.org/html/2606.28938#bib.bib31)）、Wang 等人（2023 (https://arxiv.org/html/2606.28938#bib.bib34)）和 Yu（2025 (https://arxiv.org/html/2606.28938#bib.bib53)）的联邦学习范式，我们提出统一共状态编码器（UCSE），将多视图图像、文本查询和实时车辆状态向量融合为共享潜在表征，并从中推导出可解释的能量效率场（EEF）图（Xin 等人，2025a (https://arxiv.org/html/2606.28938#bib.bib50)；Wang 等人，2025b (https://arxiv.org/html/2606.28938#bib.bib60)）。其次，优于传统的思维链方法（Lin，2025b (https://arxiv.org/html/2606.28938#bib.bib39)；Yan 等人，2025 (https://arxiv.org/html/2606.28938#bib.bib61)），我们开发了电感知结构化推理链（ESRC），这是一个确定性的内部模块，它基于联合场景-状态上下文执行结构化解析、约束形式化和符号推理（Bai 等人，2025 (https://arxiv.org/html/2606.28938#bib.bib56)；Wang 等人，2024 (https://arxiv.org/html/2606.28938#bib.bib63)）。第三，我们引入物理引导联合训练目标，不仅监督语言生成，还监督状态预测、控制一致性和 EEF 估计，确保推理基于领域知识（Wu 等人，2020 (https://arxiv.org/html/2606.28938#bib.bib33)；Wang，2025 (https://arxiv.org/html/2606.28938#bib.bib72)；Yu 等人，2025a (https://arxiv.org/html/2606.28938#bib.bib66)）。在 DriveLM-nuScenes 基准上的大量实验表明，EVLA 显著优于强微调基线，确立了新的最先进水平（Yang 等人，2025 (https://arxiv.org/html/2606.28938#bib.bib44)；Bi 等人，2025 (https://arxiv.org/html/2606.28938#bib.bib67)）。例如，我们的完整模型最终得分为 0.8548，超出最佳基线显著幅度（+0.0871），其改进可与 He 等人（2025a (https://arxiv.org/html/2606.28938#bib.bib45)）、Cao 等人（2025a (https://arxiv.org/html/2606.28938#bib.bib48)）、Xu 等人（2025 (https://arxiv.org/html/2606.28938#bib.bib68)）、Chen 等人（2025a (https://arxiv.org/html/2606.28938#bib.bib86)）、You 等人（2026 (https://arxiv.org/html/2606.28938#bib.bib85)）、Chen 等人（2025c (https://arxiv.org/html/2606.28938#bib.bib84)）、Zhang 等人（2026a (https://arxiv.org/html/2606.28938#bib.bib83)）、Zhao 等人（2026 (https://arxiv.org/html/2606.28938#bib.bib82)）、Huang 等人（2026 (https://arxiv.org/html/2606.28938#bib.bib81)）、Chen 等人（2025b (https://arxiv.org/html/2606.28938#bib.bib80)）相当。消融研究验证了每个提出组件的必要性，表明联合建模场景动态和车辆物理至关重要，尤其是在复杂的预测和规划任务中。此外，EVLA 的端到端设计相比先前的多阶段方法提供了更高效的推理流水线。本文其余部分组织如下。我们在第 2 节 (https://arxiv.org/html/2606.28938#S2) 回顾相关工作。在第 3 节 (https://arxiv.org/html/2606.28938#S3) 详细介绍 EVLA 方法。数据集、训练协议和全面的实验结果在第 4 节 (https://arxiv.org/html/2606.28938#S4) 展示。最后，第 5 节 (https://arxiv.org/html/2606.28938#S5) 总结我们的发现和贡献。

## 2 相关工作

### 2.1 面向自动驾驶的视觉-语言模型

将视觉-语言模型集成到自动驾驶中已成为一个有前景的研究方向。Zhou 等人（2024 (https://arxiv.org/html/2606.28938#bib.bib9)）和 Han 等人（2025 (https://arxiv.org/html/2606.28938#bib.bib69)）提供了关于 VLM 在自动驾驶中的全面综述，涵盖感知、导航、规划和端到端驾驶应用。多模态大语言模型的最新进展进一步扩展了此类系统的能力（Liang 等人，2024 (https://arxiv.org/html/2606.28938#bib.bib17)；Xin 等人，2025b (https://arxiv.org/html/2606.28938#bib.bib51)；Niu 等人，2024a (https://arxiv.org/html/2606.28938#bib.bib62)；You 等人，2025 (https://arxiv.org/html/2606.28938#bib.bib71)）。早期尝试聚焦于驾驶场景的场景描述和视觉问答。最近，DriveGPT4（Xu 等人，2024 (https://arxiv.org/html/2606.28938#bib.bib8)；Yu 等人，2025b (https://arxiv.org/html/2606.28938#bib.bib76)）开创了可解释的端到端自动驾驶，利用大语言模型同时预测控制信号并提供自然语言解释。DriveVLM（Tian 等人，2024 (https://arxiv.org/html/2606.28938#bib.bib10)；Yu 等人，2025c (https://arxiv.org/html/2606.28938#bib.bib78)）引入了一种结合 VLM 推理与传统驾驶流水线的混合系统，展示了改进的空间推理能力。（Zhang 等人，2025b (https://arxiv.org/html/2606.28938#bib.bib87), e (https://arxiv.org/html/2606.28938#bib.bib88), c (https://arxiv.org/html/2606.28938#bib.bib89), d (https://arxiv.org/html/2606.28938#bib.bib90), a (https://arxiv.org/html/2606.28938#bib.bib91)；Mo 等人，2026 (https://arxiv.org/html/2606.28938#bib.bib92)；Yu 等人，2026 (https://arxiv.org/html/2606.28938#bib.bib93)；Zhang 等人，2026b (https://arxiv.org/html/2606.28938#bib.bib94)）

DriveLM 基准（Sima 等人，2024 (https://arxiv.org/html/2606.28938#bib.bib1)）建立了面向驾驶的图结构视觉问答框架，能够系统评估感知、预测和规划能力。基于 nuScenes 数据集（Caesar 等人，2020 (https://arxiv.org/html/2606.28938#bib.bib2)），DriveLM 提供了多样化的问答对，测试模型对复杂驾驶场景的理解。LLaVA（Liu 等人，2023 (https://arxiv.org/html/2606.28938#bib.bib7)）及其后继者 LLaVA-NeXT（Liu 等人，2024a (https://arxiv.org/html/2606.28938#bib.bib16)）因其强大的视觉指令跟随能力，已成为多模态驾驶助手的流行骨干架构。尽管取得了这些进展，现有基于 VLM 的方法将车辆视为不透明实体，忽略了关键内部状态，如电池电量、电机效率和热约束。我们的工作通过在 VLM 框架内显式建模电动动力系统状态来填补这一空白。

### 2.2 电动动力系统与能量管理

电动车辆的能量管理在控制系统领域已得到广泛研究（Zhang 等人，2015 (https://arxiv.org/html/2606.28938#bib.bib13)；Wei 等人，2025a (https://arxiv.org/html/2606.28938#bib.bib26)）。关键挑战包括优化电机效率、管理电池荷电状态以及平衡性能与能耗。传统方法依赖于基于规则的策略或模型预测控制，这需要显式的车辆模型，且难以整合感知信息（Wang，2024 (https://arxiv.org/html/2606.28938#bib.bib73)；Wang 和 Sayil，2024 (https://arxiv.org/html/2606.28938#bib.bib74)）。近期工作探索了基于学习的能量最优驾驶方法，但这些方法通常独立于感知系统运行。据我们所知，EVLA 是第一个在统一架构中联合建模视觉感知、语言理解和电动动力系统动态的框架，从而实现基于场景语境和车辆物理的能量感知决策。

### 2.3 语言模型中的结构化推理

思维链（CoT）提示已证明能显著提升大语言模型在复杂推理任务上的表现（Niu 等人，2024b (https://arxiv.org/html/2606.28938#bib.bib65)）。然而，外部 CoT 提示依赖精心设计的模板，可能产生不一致或物理上不合理的推理链。近期工作探索了在模型架构内部内化推理过程（Lin，2025c (https://arxiv.org/html/2606.28938#bib.bib41)；Wei 等人，2025b (https://arxiv.org/html/2606.28938#bib.bib70)）。我们提出的电感知结构化推理链（ESRC）与通用 CoT 方法不同，它融入了来自车辆物理的领域特定约束。ESRC 不生成自由形式的推理文本，而是执行结构化解析、约束形式化和符号推理，确保推理输出符合物理定律和动力系统限制。

参考说明 图2：EVLA 的架构。EVLA 通过模态特定编码器编码视觉场景、语言指令和电动车辆状态，利用统一共状态编码器融合它们，并执行电感知结构化推理，以生成安全、节能且可解释的驾驶动作。

除了通用的思维链提示，结构化和约束感知推理长期以来被视为确保复杂系统可靠性和可验证性的基本要求。关于系统可诊断性和网络可靠性的先前研究表明，显式建模结构约束和可行性条件对于可靠决策至关重要，尤其是在大规模互联系统和基于比较的诊断模型中（Wang 和 Wang，2016 (https://arxiv.org/html/2606.28938#bib.bib25), 2018 (https://arxiv.org/html/2606.28938#bib.bib27), 2019 (https://arxiv.org/html/2606.28938#bib.bib24)；Wang 等人，2025a (https://arxiv.org/html/2606.28938#bib.bib23)；Xiang 等人，2025 (https://arxiv.org/html/2606.28938#bib.bib54)；Pan 等人，2024 (https://arxiv.org/html/2606.28938#bib.bib58)）。这些工作共同强调，可靠推理应基于形式化约束和结构属性，而非无约束的启发式推断。这一视角直接激励了我们的电感知结构化推理链（ESRC），该模块在驾驶助手框架内内化约束形式化和符号可行性检查。

## 3 方法：电-视觉-语言助手（EVLA）

我们提出电-视觉-语言助手（EVLA），一种新颖的框架，它整合了多模态视觉-语言理解与实时电动动力系统状态，实现物理接地且能量感知的驾驶推理与决策。

EVLA：用于物理基础驾驶推理与控制的电感知多模态助手

相似文章

PersonaDrive：面向闭环驾驶仿真的基于人类风格的检索增强VLA智能体

EventVLA: 事件驱动的视觉证据记忆用于长时域视觉-语言-动作策略

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

AffordanceVLA: 一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型

HiVLA: 一种以视觉接地为中心的分层具身操作系统

提交意见反馈