利用生成式AI拓宽交通安全数据获取渠道:一种基于模式框架的空间自然语言查询方法

arXiv cs.CL 论文

摘要

本文提出了一种基于模式框架的自然语言接口,用于交通安全分析。该接口利用大型语言模型解释用户查询,同时保持对权威数据库的确定性执行。该框架在马萨诸塞州交通安全数据库上进行了评估,成功执行了所有查询,并在29%的案例中纠正了错误,展示了拓宽安全数据获取渠道的实用方法。

arXiv:2605.21712v1 公告类型:新论文 摘要:交通安全分析需要将事故记录、道路属性和地理空间数据通过基于GIS的工作流程进行整合,但各机构及社区利益相关者之间的数据获取仍存在不均衡现象。技术门槛导致安全规划的核心分析工具与实际使用者之间存在差距。地方机构、学校委员会和居民可能有关切的安全问题,但缺乏检索、筛选、制图和分析相关数据的能力。生成式AI为缩小这一差距提供了途径,但其在公共部门的应用引发了关于可靠性、可复现性和治理的疑问。本文提出了一种基于模式框架的自然语言接口用于交通安全分析,利用大型语言模型(LLM)解释用户意图,同时保持对权威数据库的确定性、可审查执行。用户查询被转化为结构化的语义框架,由基于规则的验证层进行校验,编译为带类型的空间操作有向无环图,并在PostGIS数据库上执行。这种有限制设计将语言解释与确定性执行分离,既保证了结果的可复现性和模式约束,又消除了访问障碍。该框架使用马萨诸塞州全州交通安全数据库进行评估,该数据库整合了事故记录、道路属性和地理空间图层(包括学校、公交站、人行横道和市政边界)。所有查询均成功执行;验证层纠正了29%评估查询中的错误,反映了灵活自然语言与严格模式约束之间的差距。结果表明,将自然语言的可访问性与确定性执行相结合,是拓宽交通安全数据获取的可行方向,对公共部门规划中的可信AI具有启示意义。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:43

# 借助生成式人工智能拓宽交通安全数据获取渠道:一种面向空间自然语言查询的基于模式的框架
来源:https://arxiv.org/html/2605.21712

###### 摘要

交通安全分析需要结合基于GIS的工作流程来整合事故记录、道路属性及地理空间数据,但在各机构与社区利益相关方之间,其可及性仍参差不齐。技术门槛在安全规划的核心分析工具与能够使用这些工具的从业者之间造成了鸿沟。地方机构、学校委员会和居民可能存在安全关切,但在检索、筛选、制图和分析相关数据方面的能力有限。生成式人工智能为缩小这一差距提供了途径,但其在公共部门的应用引发了关于可靠性、可复现性和治理的疑问。本文提出了一种面向交通安全分析、基于模式的自然语言界面,利用大语言模型(LLM)解读用户意图,同时保留在权威数据库上确定性、可审查的执行路径。用户查询被转化为结构化语义框架,由规则层验证,编译为空间操作的带类型有向无环图,并在PostGIS数据库中执行。这种有限设计将语言解读与确定性执行分离,在消除访问障碍的同时,确保结果可复现且基于模式。该框架使用马萨诸塞州全州范围的交通安全数据库进行评估,该数据库整合了事故记录、道路属性以及学校、公交站、人行横道和市政边界等地理空间图层。所有查询均成功执行;验证层纠正了29%的评估查询中的错误,反映了灵活自然语言与严格基于模式要求之间的差距。结果表明,将自然语言可及性与确定性执行相结合,是拓宽交通安全数据获取渠道的实用方向,对公共部门规划中值得信赖的人工智能具有启示意义。

###### 关键词:

生成式人工智能,交通安全,自然语言界面,空间分析,社会技术系统

\\affiliation

\[umass\]organization=马萨诸塞大学阿默斯特分校土木与环境工程系,地址=阿默斯特,州=马萨诸塞,国家=美国

## 1 引言

交通安全分析日益依赖于结合事故记录、道路及基础设施数据以及空间方法来支持筛查、优先级排序和政策决策。机构利用这些分析来识别高风险走廊、评估学校及公交站附近状况、比较辖区情况,并指导有限安全资源的分配。然而,在实践中,开展这项工作需要熟悉地理信息系统(GIS)平台、数据库查询以及底层安全数据集的结构,这些先决条件造成了当前交通安全规划的核心分析工具与能够直接使用它们的从业者范围之间的鸿沟。这一差距影响到市政当局、规划者、学校安全委员会以及社区倡导者和居民:他们可能都有明确的安全关切和对结构化交通安全证据的合理需求,无论是为了基础设施请求、资金申请还是地方倡导,但却缺乏检索、筛选、连接、聚合和制图相关数据的技术知识。当获取此类证据依赖于专门工作流程时,即使是简单的安全问题也可能需要高昂的成本来回答,导致延误或无人应答。因此,挑战不仅是技术性的,也是制度性的,因为进行结构化安全分析的能力决定了谁能够参与安全规划,以及谁的关切能被转化为可操作的证据。

大语言模型(LLM)的最新进展为缩小这一差距提供了潜在途径。自然语言(NL)界面可以通过允许用户直接表达分析意图,而无需熟悉GIS平台或查询语言,使结构化数据系统更易于访问。但让安全数据可查询只是问题的一部分;结果还需要具有可复现性和足够的可信度,以支持实际的规划决策。现有大多数基于LLM的地理空间工作都集中在通用查询、自主执行或代码生成上,对交通安全规划相关的制度要求关注相对较少。在此背景下,系统必须支持灵活查询,同时保证结果可复现、一致且与既定的分析工作流程保持一致。

本文贡献了一种自然语言界面,它将LLM作为结构化交通安全分析框架中的一个受控解读层。用户查询被转化为结构化语义框架,根据领域特定模式进行验证和纠正,并编译为针对权威空间数据库执行的空间操作带类型有向无环图(DAG)。这种设计允许用户用自然语言表达分析意图,同时保持基于模式、可复现和可审计的执行。目标不是取代现有的安全分析工作流程,而是使其对更广泛的机构和社区用户(包括那些不具备GIS技术专长的人)更易访问,同时保持执行的有界性并接受机构监督。

该系统使用马萨诸塞州全州范围的交通安全数据库进行开发和评估,该数据库整合了事故记录、道路属性以及学校、公交站、人行横道和市政边界等地理空间图层。它支持在多种背景下进行结构化安全分析,同时生成交互式地图、排名表格和可导出数据集等输出。本文还讨论了这种方法如何帮助缩小交通安全分析的技术需求与能够从中受益的更广泛利益相关者之间的差距。

本文其余部分组织如下。第2节(https://arxiv.org/html/2605.21712#S2)回顾了关于数据驱动的安全实践与GIS访问障碍、自然语言界面与基于LLM的查询系统,以及公共部门规划中AI可信度考虑的相关工作。第3节(https://arxiv.org/html/2605.21712#S3)介绍了系统架构。第4节(https://arxiv.org/html/2605.21712#S4)介绍了评估设计与结果。第5节(https://arxiv.org/html/2605.21712#S5)讨论了应用、可信度考虑和未来方向。第6节(https://arxiv.org/html/2605.21712#S6)总结了全文。

## 2 背景与相关工作

### 2.1 交通安全分析与GIS访问

美国的交通安全分析日益受到通过联邦安全计划建立的数据驱动框架的影响。《公路安全改进计划》(HSIP)要求各机构系统性地识别事故问题,确定干预地点的优先级,并评估安全成果(美国联邦公路管理局,2010(https://arxiv.org/html/2605.21712#bib.bib1))。与之互补的是,系统性安全方法超越了历史上事故高发地点,在更广泛的路网中识别与高风险相关的道路特征(Khan 和 Das,2024(https://arxiv.org/html/2605.21712#bib.bib5);美国联邦公路管理局,2024(https://arxiv.org/html/2605.21712#bib.bib2))。这些框架共同高度依赖于通过基于GIS的分析整合事故记录、道路属性和地理空间基础设施数据。诸如热点检测、邻近性分析和基础设施关联筛查等空间方法已成为识别学校、公交站、走廊及其他交通环境周边安全问题的常用工具(Oke等人,2025(https://arxiv.org/html/2605.21712#bib.bib7);美国联邦公路管理局,2023(https://arxiv.org/html/2605.21712#bib.bib3);Mohammed等人,2023(https://arxiv.org/html/2605.21712#bib.bib4))。

尽管这些分析方法日益成熟,但其获取渠道仍然不均衡。先前对GIS在交通安全中应用的评估已经识别出与技术专长、数据集成复杂性以及组织能力相关的持久性障碍,特别是对于较小的机构和地方利益相关者(美国联邦公路管理局,2013(https://arxiv.org/html/2605.21712#bib.bib6);Guo等人,2020(https://arxiv.org/html/2605.21712#bib.bib11))。这些障碍超出了正式机构的范畴:社群团体、社区倡导者和居民在试图记录安全问题或支持基础设施投资请求时,也面临着同样的分析挑战,而且往往缺乏应对这些挑战的组织资源(McDonald等人,2013(https://arxiv.org/html/2605.21712#bib.bib25))。尽管许多规划与政策问题在概念上很简单,但将其转化为结构化的分析工作流程通常需要熟悉GIS平台、数据库系统和本地数据模式。随着交通机构越来越朝着数据驱动规划的方向发展,改善对这些分析能力的获取仍然是一个重要的实践挑战。

### 2.2 生成式人工智能与交通数据的自然语言访问

LLM的最新进展为减少这些障碍创造了新的机会。在交通领域,生成式AI的应用主要集中于交通运行、自主系统、预测和仿真(Da等人,2025(https://arxiv.org/html/2605.21712#bib.bib21);Maksoud等人,2025(https://arxiv.org/html/2605.21712#bib.bib17);Nie等人,2025(https://arxiv.org/html/2605.21712#bib.bib19))。最近,人们的注意力开始转向将LLM用作结构化分析任务的界面。这一更广泛的趋势与自然语言数据库界面(NLIDB)的研究方向一致,后者旨在将用户问题转化为结构化数据库查询。在早期基于规则的系统(Androutsopoulos等人,1995(https://arxiv.org/html/2605.21712#bib.bib13))的基础上,现代text-to-SQL方法越来越多地利用LLM来改善模式感知的查询生成(Gao等人,2024(https://arxiv.org/html/2605.21712#bib.bib14)),而对空间和时空数据库的扩展则进一步拓宽了这一范式(Redd等人,2025(https://arxiv.org/html/2605.21712#bib.bib9))。然而,交通安全分析涉及特定领域的实体、字段结构和地理惯例,通用查询系统通常无法一致地处理这些内容,包括学校或公交站等地点附近的邻近性筛查、基础设施关联筛选以及特定项目的时间分析。

### 2.3 地理空间AI系统与公共部门背景下的可信度

LLM赋能的GIS系统的并行发展进一步扩展了生成模型在空间分析中的作用。诸如自主GIS(Li 和 Ning,2023(https://arxiv.org/html/2605.21712#bib.bib15))、用于地理空间数据检索的LLMFind(Ning等人,2025(https://arxiv.org/html/2605.21712#bib.bib16))、用于空间分析的GIS Copilot(Akinboyewa等人,2025(https://arxiv.org/html/2605.21712#bib.bib10))以及相关的地理空间代理等系统,越来越多地使用自然语言界面来拓宽对空间数据的访问,减少编码需求,并自动化的GIS工作流程的部分内容。相关工作还探索了针对规划和GIS任务的结构化提示与模式对齐(Ying等人,2026(https://arxiv.org/html/2605.21712#bib.bib22))、用于公交数据交互的代码生成(Devunuri 和 Lehe,2025(https://arxiv.org/html/2605.21712#bib.bib20)),以及从语言模型中提取地理空间知识用于地理预测任务(Manvi等人,2024(https://arxiv.org/html/2605.21712#bib.bib8))。总的来说,这些努力证明了LLM在使GIS和交通数据系统更容易为更广泛用户所使用方面的日益增长的潜力。

许多这些系统依赖于直接的代码生成或自主执行,这虽然可以提供灵活性,但也引入了与非确定性、缺乏可复现性以及错误向下游输出传播相关的挑战(Zhang等人,2025(https://arxiv.org/html/2605.21712#bib.bib12);Qiu等人,2025(https://arxiv.org/html/2605.21712#bib.bib29))。在更专业化的分析领域,这些担忧鼓励了将自然语言解读与下游执行分离的架构方法,转而依赖独立于语言模型运行的流水线(Jhamtani等人,2024(https://arxiv.org/html/2605.21712#bib.bib31);Barbieri等人,2024(https://arxiv.org/html/2605.21712#bib.bib28);Qiu等人,2025(https://arxiv.org/html/2605.21712#bib.bib29))。这些优先事项与公共部门环境中对可信AI的更广泛期望相一致。诸如NIST AI风险管理框架(美国国家标准与技术研究院,2023(https://arxiv.org/html/2605.21712#bib.bib26))及其生成式AI概况(美国国家标准与技术研究院,2024(https://arxiv.org/html/2605.21712#bib.bib27))等框架将可靠性、可审计性和人工监督视为结果导向分析系统的核心要求。对于面向结构化数据系统的自然语言界面而言,这意味着关于模式一致性、验证和可解释执行的设计选择既是治理决策,也是技术决策,因为输出不仅需要正确,还需要是可追溯、可验证,并且与机构及用户所依赖的定义、标准及数据实践保持一致。

### 2.4 研究空白与贡献

现有工作在扩展对交通和地理空间数据系统的自然语言访问,以及将可信度确立为公共部门AI的设计要求方面取得了重要进展。然而,交通安全仍然是一个专门的规划与政策领域,其分析要求依赖于通用系统通常未予设计的特定领域实体、字段结构和执行逻辑。诸如学校或公交站附近的邻近性事故筛查、基础设施关联优先级排序以及特定项目的时间分析等任务,需要结构化、基于模式的框架,而非开放式的查询生成。同时,许多依赖此类分析的利益相关者,包括地方机构、学校委员会和社区倡导者,可能缺乏导航所涉技术工作流程的专业知识。据我们所知,现有系统尚未直接将特定领域的交通安全框架与自然语言可访问性结合起来,以支持更广泛的非专业用户进行可靠、可复现的分析。这一空白是社会技术性的,而非纯粹的计算性问题:关键问题不仅在于语言模型能否生成空间查询,更在于能否以与公共部门审查、问责和规划实践相兼容的方式来组织生成式AI中介的访问。

本文贡献了一个框架,该框架利用生成式人工智能作为结构化交通安全分析的可控界面,使其能够被有安全问题但技术能力有限的社区成员、倡导者、市政工作人员和规划机构所访问。

相似文章

用于模式约束临床信息抽取的检索增强型大语言模型

arXiv cs.CL

本文提出了一种模块化的检索增强生成(RAG)流水线,用于从护理人员与患者的对话转录中提取结构化临床观察结果,采用模式约束提示和第二遍审核,基于Llama和GPT骨干模型,取得了80.36%的F1分数。