下一步会发生什么:面向紧急事件的大模型驱动推演
摘要
本文介绍了 WLDS,这是一个由大型语言模型驱动的系统,通过利用可控随机性和跨领域知识来模拟和推演紧急事件。文章提出了紧急事件推演(EID)基准,并展示了其在多个领域的高保真模拟能力。
arXiv:2605.08599v1 公告类型:新论文
摘要:传统的模拟方法通过预设条件来重现已发生的紧急事件,以辅助人们进行风险评估和应急决策。然而,由于紧急事件样本稀缺,现有模拟系统因缺乏随机性和多样性而难以充分挖掘潜在风险。相比之下,大模型(LMs)可以动态调整生成策略以引入可控的随机性,同时具备广泛的事先知识及跨领域知识迁移能力。受此启发,我们提出了由大模型驱动的世界线分歧系统(WLDS),该系统能够在不同领域实现紧急事件的多样化可视化与推演。WLDS 利用大模型推演紧急事件的各种发展走向,并引入事实校准和逻辑校准机制,以确保推演过程中的事实准确性和逻辑严密性。交互模块可以独立选择推演方向,从而避免系统难以识别的潜在幻觉问题。此外,通过引入可视化模块,WLDS 实现了文本与图像相结合的模拟与推演,增强了可解释性。在提出的紧急事件推演(EID)基准数据集上进行的广泛实验表明,WLDS 在多个特定领域中实现了对紧急事件的高精度、高保真模拟与推演。相关实验进一步证明,WLDS 能够为用户提供更多的紧急事件推演数据,并为未来类似紧急事件的更好决策提供支持。
查看缓存全文
缓存时间: 2026/05/12 07:18
# 下一步会发生什么:大模型驱动的紧急事件推演
来源: https://arxiv.org/html/2605.08599
###### 摘要
传统仿真方法通过预设来重现已发生的紧急事件,以协助人们进行风险评估和应急决策。然而,由于缺乏随机性和多样性,现有仿真系统难以充分挖掘潜在风险,因为紧急事件样本稀缺。相比之下,大模型(LMs)能够动态调整生成策略以引入可控的随机性,同时具备广泛的事前知识和跨领域知识迁移能力。受此启发,我们提出了大模型驱动的世界线分歧系统(WLDS),该系统能够在不同领域实现紧急事件的多样化可视化与推演。WLDS 利用大模型从多个发展方向推演紧急事件,并引入事实校准和逻辑校准机制,以确保推演过程中的事实准确性和逻辑严密性。交互模块可以独立选择推演方向,以避免系统难以识别的潜在幻觉。此外,通过引入可视化模块,WLDS 形成了结合文本和图像的仿真与推演,增强了可解释性。在提出的紧急事件推演(EID)基准数据集上进行的大量实验表明,WLDS 在多个特定领域实现了高精度的紧急事件仿真与推演。相关实验进一步证明,WLDS 能为用户生成更多的紧急事件推演数据,并为未来类似紧急事件中的更好决策提供支持。
###### 关键词:
大模型,仿真,推演,交互,紧急事件
††期刊: 核物理 B\affiliation
[inst1]机构=郑州大学, 城市=郑州, 邮编=450001, 省份=河南, 国家=中国\affiliation[inst2]机构=浙江大学, 城市=杭州, 邮编=310058, 省份=浙江, 国家=中国
\{图形摘要\}![[无标题图片]](https://arxiv.org/html/2605.08599v1/x1.png)
\{亮点\}
WLDS:一种用于少样本、多领域专业设置下的紧急事件仿真与推演系统。
文本-图像融合,用户可引导的多分支世界线交互推演。
用于紧急推演的 EID 基准测试,涵盖 10 个领域和 4,300 个带有专家标注的三步分支样本。
具有优越的事实和逻辑一致性以及更高的场景预测准确率,并得到了专家评估的证实。
## 1 引言
针对现实场景的数字仿真技术极大地促进了对现实事件演变过程和背后逻辑的理解与重现\[17 (https://arxiv.org/html/2605.08599#bib.bib30)\]。通过仿真现实场景并推演事件发展过程,仿真系统不仅为操作员提供了培训材料,也为决策者提供了风险评估依据\[33 (https://arxiv.org/html/2605.08599#bib.bib11)\]。因此,它们的性能直接决定了场景中风险预测的准确性以及应急决策的有效性\[40 (https://arxiv.org/html/2605.08599#bib.bib46)\]。
现有的仿真技术在正常场景的仿真建模方面已显示出一定的有效性,例如人群仿真\[2 (https://arxiv.org/html/2605.08599#bib.bib40)\]。然而,它们在模拟和推演紧急事件方面缺乏能力\[24 (https://arxiv.org/html/2605.08599#bib.bib20),49 (https://arxiv.org/html/2605.08599#bib.bib23)\],因为传统仿真技术存在以下问题:(1)缺乏随机性:针对现实场景的仿真技术可以实现物理实体的数字映射。然而,在逻辑推演和状态演化方面,它们过度依赖预设规则,缺乏对物理世界中事件状态随机性和事件发展路径多样性的建模能力。(2)缺乏多样性:自动驾驶和城市轨道交通等特定领域具有高潜在风险、罕见但严重的紧急情况。例如,在城市轨道交通场景中,虽然火灾发生频率低,但可能导致交通瘫痪和踩踏等严重后果。此类紧急事件对于提高仿真和推演的准确性至关重要。由于缺乏相关的紧急事件,现有的仿真和推演技术无效,并存在偏离事实和推演不合逻辑等问题。
参见图注 图1:直接使用大模型仿真和推演自动驾驶过程。其中包括两种幻觉问题:事实偏差和逻辑偏差。近年来,一些研究利用大模型(LMs)动态调整生成策略并引入可控随机性,以打破传统规则驱动仿真中单一场景演化模式的限制\[38 (https://arxiv.org/html/2605.08599#bib.bib47),13 (https://arxiv.org/html/2605.08599#bib.bib48),32 (https://arxiv.org/html/2605.08599#bib.bib49)\]。例如,Li 等人\[23 (https://arxiv.org/html/2605.08599#bib.bib1)\]设计了 ChatSUMO 系统,将大模型与交通仿真平台 SUMO 相结合。它实现了从自然语言输入到城市级交通场景生成的全流程自动化,并支持交通信号优化和车辆路径调整等自定义操作。然而,这些研究缺乏对紧急事件的仿真。图.1 (https://arxiv.org/html/2605.08599#S1.F1)展示了直接使用大模型仿真和推演自动驾驶过程的结果。我们总结认为,直接使用大模型进行仿真和推演容易出现以下两类幻觉问题:事实偏差:生成的违反物理定律或领域规范的内容严重影响了仿真和推演的可靠性。如图.1 (https://arxiv.org/html/2605.08599#S1.F1)所示,在第3步中,自动驾驶系统报告仅剩余5%的电量,但仍声称车辆可以继续行驶500公里,这在物理上是不可能的。逻辑偏差:在仿真和推演过程中,存在因果断裂和元素一致性缺失等逻辑缺陷,导致缺乏逻辑严密性。如图.1 (https://arxiv.org/html/2605.08599#S1.F1)所示,在第1步中,车辆已经在繁忙的高速公路上,但在第4步中,大模型推演出同一辆汽车遇到了高速公路上不应存在的人行横道。此外,由于大模型具有广泛的事前知识和跨领域知识迁移能力\[44 (https://arxiv.org/html/2605.08599#bib.bib16),42 (https://arxiv.org/html/2605.08599#bib.bib17),43 (https://arxiv.org/html/2605.08599#bib.bib18),41 (https://arxiv.org/html/2605.08599#bib.bib19)\],它们可用于将其他领域的紧急事件知识迁移到目标领域,从而缓解紧急事件稀缺的问题\[10 (https://arxiv.org/html/2605.08599#bib.bib41),9 (https://arxiv.org/html/2605.08599#bib.bib42),12 (https://arxiv.org/html/2605.08599#bib.bib43),11 (https://arxiv.org/html/2605.08599#bib.bib44)\]。
世界线代表物体或事件在时空中的轨迹\[20 (https://arxiv.org/html/2605.08599#bib.bib45)\]。受此概念启发,我们提出了大模型驱动的世界线分歧系统(WLDS),旨在实现紧急事件的高精度、高保真仿真与推演,从而为安全评估和决策支持提供参考。WLDS 利用大模型的跨领域迁移能力,将其他领域的紧急事件知识迁移到目标领域,从而生成初始紧急事件。随后,从初始事件开始,WLDS 使用大模型生成具有不同发展方向的多条世界线,并允许用户独立选择期望的推演方向。同时,WLDS 引入了双重校准机制:事实校准机制通过实时知识检索实现生成内容与领域事实的动态对齐,以确保每条世界线具备事实可靠性。逻辑校准机制利用逻辑判别器动态评估当前事件与之前内容之间的逻辑是否一致,从而确保每条世界线具有严密的内部逻辑。为解决现有评估系统的不足,我们提出了一种自动化评估机制,通过事实一致性和逻辑一致性定量评估 WLDS 的性能。此外,我们构建了紧急事件推演(EID)基准数据集,以促进紧急事件推演的动态建模与评估。它由10个子数据集组成,涵盖从城市轨道交通到自动驾驶等多个领域。实验结果显示,与基线模型相比,WLDS 在城市轨道交通领域的事实一致性提高了7.08%,逻辑一致性提高了8.34%。在 EID-化工厂子数据集中,WLDS 的场景预测准确率比基线模型高出8.50%。此外,在自动驾驶领域,WLDS 获得了领域专家4.8分的高评分。
本文的主要贡献总结如下:
1. 我们系统地分析了现有仿真系统在紧急事件仿真和推演方面存在的问题,并讨论了大模型在该领域的两类幻觉问题(事实偏差和逻辑偏差)。
2. 我们提出了大模型驱动的世界线分歧系统(WLDS),结合事实校准和逻辑校准机制,通过大模型实现紧急事件的高精度、高保真仿真与推演。
3. 我们构建了 EID 基准数据集,包含10个子数据集,共计4300条数据。该数据集可为优化和评估紧急事件推演模型提供高质量的数据支持。
4. 我们设计了一种基于事实一致性和逻辑一致性的自动化评估机制。大量实验证明了 WLDS 在仿真和推演紧急事件方面的有效性。
## 2 相关工作
### 2.1 场景生成技术
场景生成是复杂环境建模的关键支撑技术\[8 (https://arxiv.org/html/2605.08599#bib.bib3),26 (https://arxiv.org/html/2605.08599#bib.bib4),46 (https://arxiv.org/html/2605.08599#bib.bib5)\],现有方法大致可分为基于模型和基于数据的方法\[7 (https://arxiv.org/html/2605.08599#bib.bib6),30 (https://arxiv.org/html/2605.08599#bib.bib7)\]。
基于模型的方法可以通过数学建模或规则系统生成连续场景。例如,DiffScene\[39 (https://arxiv.org/html/2605.08599#bib.bib15)\]采用扩散模型结合对抗优化来生成高质量的安全关键场景。Bagschik 等人\[3 (https://arxiv.org/html/2605.08599#bib.bib13)\]提出了一种基于本体的高速公路场景生成方法。Li 等人\[22 (https://arxiv.org/html/2605.08599#bib.bib14)\]介绍了一种受生物学启发的方法,涉及场景元素的交换和突变。
基于数据的方法依赖大规模场景数据集,通过挖掘数据中的隐性信息来重现场景特征和分布\[5 (https://arxiv.org/html/2605.08599#bib.bib21)\]。例如,Thal 等人\[36 (https://arxiv.org/html/2605.08599#bib.bib22)\]基于真实驾驶数据生成了高覆盖率的测试用例。Bäumler 等人\[6 (https://arxiv.org/html/2605.08599#bib.bib24)\]将事故数据与基于视频的交通观测融合,以产生更具代表性的测试场景。
然而,基于模型的方法受限于预设规则,而基于数据的方法受限于原始数据分布,难以生成超出既有模式的紧急事件推演。为解决这一问题,WLDS 通过大模型引入可控随机性,动态调整生成策略,以增强紧急事件推演的多样性和随机性。
### 2.2 仿真与推演技术
仿真与推演是风险评估和决策制定的核心技术\[16 (https://arxiv.org/html/2605.08599#bib.bib2),28 (https://arxiv.org/html/2605.08599#bib.bib8)\]。传统仿真模型可以整合多个视角以支持复杂决策\[4 (https://arxiv.org/html/2605.08599#bib.bib9),14 (https://arxiv.org/html/2605.08599#bib.bib10)\],但其静态特性限制了其在动态场景中的适用性。
数字孪生技术是工业4.0的关键组成部分\[19 (https://arxiv.org/html/2605.08599#bib.bib25)\],通过实时多源数据与物理系统持续同步\[15 (https://arxiv.org/html/2605.08599#bib.bib28),25 (https://arxiv.org/html/2605.08599#bib.bib26),1 (https://arxiv.org/html/2605.08599#bib.bib27),34 (https://arxiv.org/html/2605.08599#bib.bib29)\]。例如,Padovano 等人\[31 (https://arxiv.org/html/2605.08599#bib.bib31)\]结合 BIM 和传感器数据构建行人流仿真,并使用 LSTM 预测拥堵,触发自动警报,使应急响应时间减少了40%。
然而,现有研究主要集中在正常事件的推演,缺乏对紧急事件的研究。由于紧急事件稀缺,模型难以学习其独特的演化模式,导致预测偏差和应急决策效果不佳。WLDS 通过将其他领域的紧急事件知识迁移到目标领域来支持紧急事件推演,从而缓解这一问题。
### 2.3 大模型驱动的仿真技术
近年来,RLBench\[21 (https://arxiv.org/html/2605.08599#bib.bib34)\]和 CALVIN\[27 (https://arxiv.org/html/2605.08599#bib.bib35)\]等传统平台依赖手动设计或简单的随机化,无法满足复杂任务的需求。利用大模型强大的语义理解和跨模态推理能力,为仿真技术的进步提供了新的动力\[35 (https://arxiv.org/html/2605.08599#bib.bib12),48 (https://arxiv.org/html/2605.08599#bib.bib39)\]。
最近的研究探讨了将大模型与仿真相结合\[47 (https://arxiv.org/html/2605.08599#bib.bib36),18 (https://arxiv.org/html/2605.08599#bib.bib37),45 (https://arxiv.org/html/2605.08599#bib.bib38)\]。Grutopia\[37 (https://arxiv.org/html/2605.08599#bib.bib32)\]构建了对象-空间关系图,用于大规模室内场景生成。RoboCasa\[29 (https://arxiv.org/html/2605.08599#bib.bib33)\]结合人类演示来优化场景布局。LLMScenario\[8 (https://arxiv.org/html/2605.08599#bib.bib3)\]采用提示工程和评估-反馈调优来扩展自然驾驶场景中的极端情况。
然而,在自动驾驶等高专业相似文章
世界-动作交互模型的DAWN
本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。
急诊科多智能体系统:基于急诊科数字孪生的验证研究
本文提出了一种针对急诊科的混合离散事件模拟与基于智能体的模型框架,经过真实世界数据验证,并集成了一个多智能体系统以实现自主资源分配优化。
社交媒体中因果关系提取的大型语言模型:灾害情报的验证框架
本文提出了一个验证框架,用于评估大型语言模型(LLM)在灾害期间从社交媒体帖子中提取因果关系的有效性。通过将LLM生成的结果与基于专家知识的参考图谱进行比较,评估其在识别因果关系方面的可靠性及潜在风险。
风险链条:大型推理模型中的安全失效及通过自适应多原则引导进行缓解
本文研究了大型推理模型中的安全失效问题,即尽管最终答案安全,但推理轨迹中仍会出现有害内容,并提出了一种自适应多原则引导方法来缓解这些风险。
大型学习模型中增强且高效的推理
本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。