警务本体论:面向执法报告语义理解与推理的概念知识学习
摘要
本文提出一种符号框架,利用本体、语义分析(AMR)和推理,将脱敏的警方叙述转化为证据关联的事实,从而能够对通常仅存在于自由文本中的事件细节进行结构化查询。
arXiv:2605.15978v1 公告类型:新
摘要:执法报告包含结构化字段和书面叙述。然而,许多用于审查、警察培训和调查的事件事实以自然语言形式存在,需要人工阅读。我们提出一个采用符号方法的框架,将叙述转化为证据关联的事实。我们的目标是衡量叙述的价值,仅从非结构化文本中恢复事件细节,并构建带有时间线索和领域公理的时间图。我们通过脱敏个人标识符、语义分析、谓词映射到本体以及推理来实现这一点。我们在450份财产犯罪报告和一次简短的人工审查上评估了该符号方法。从系统提取的事件中,54.1%的置信度得分至少为0.80,93.7%通过PropBank--VerbNet--WordNet语义路径进行了映射。在事件起始、被盗物品和时间线索上达到100%一致,而在强行进入解释方面一致性较低。
查看缓存全文
缓存时间: 2026/05/18 06:35
# 警务本体:面向执法报告语义理解与推理的概念知识学习 来源:https://arxiv.org/html/2605.15978 ###### 摘要 执法报告中包含结构化字段和书面叙述。然而,许多用于审查、警员培训和调查所需的事件事实以自然语言形式存在,需要人工阅读。我们提出了一种使用符号方法将叙述转换为证据关联事实的框架。我们的目标是衡量叙述在仅从非结构化文本中恢复事件细节方面的价值,并利用时间线索和领域公理构建时间图。我们通过删除个人标识符、语义解析、谓词到本体的映射以及推理来实现这一目标。我们在450份财产犯罪报告和一次简短的人工审查上评估了该符号方法。在系统提取的事件中,54.1%的置信度得分≥0.80,93.7%的事件通过PropBank→VerbNet→WordNet语义路径映射。在事件发起、被盗物品和时间线索上达成100%一致,但在强行进入的解释上一致性较低。 ## I. 引言 执法机构依靠事件报告来记录事件、调查并跟踪行动,这些报告包含结构化字段,如编码类别、复选框、行政数据(案件编号、罪名和法规)以及由警员撰写的自然语言。元数据是机器可读的,支持计数、过滤和记录管理。机构使用执法记录管理系统的数据输入工具将结构化数据输入事件报告,因此期望执法人员在叙述中按时间顺序组织事件事实[15]。然而,事件的许多重要细节仅存在于叙述中。这些细节包括发生了什么以及顺序、涉及的人员以及如何描述参与者(如警员、受害者和嫌疑人)。叙述细节在不同报告中也可能不同。一份报告可能从911电话开始,而另一份可能从警员巡逻开始,而车辆、被盗物品或某人如何进入某地等细节可能只出现在自由文本中。这些细节难以系统地获取,当调查人员或分析员需要审查大量报告时,这会造成重大瓶颈。在某些公开发布的环境中,这些叙述会被编辑,这也增加了恢复重要信息以及保持对源文本可追溯性的挑战。在这项工作中,我们专注于从警员叙述中提取事件细节、参与者和时间顺序,这些内容通常在结构化数据中缺失。我们将其视为证据关联事实,即基于叙述并可追溯到报告文本的事实。提取这些信息可以使叙述更有利于系统审查、分析和调查,从而引出以下研究问题: 1. RQ1. 能否使用符号自然语言理解(NLU)技术将编辑过的警员叙述转换为可追溯到原始句子的证据关联事实? 2. RQ2. 编辑过的警员叙述是否为结构化元数据可能未捕获的事件和时间信息提供了足够的证据? 1. 隐私与提取:叙述→编辑文本+实体 2. 语义层:结构化事件语义(AMR) 3. 分析输出:查询+可审计推理:本体(OWL/DL) 图1:叙述编辑、提取、AMR语义规范化及本体输出。 对于大规模使用,分析警员叙述的方法必须保持隐私、处理语言变异并维持对叙述的可追溯性。图1展示了所提出的符号方法。首先,编辑叙述并提取实体/事件。然后,将文本转换为保持所有事件和参与者的语义表示。最后,将提取的含义映射到本体进行推理。通过这种方式,我们解决了RQ1,而RQ2通过简短的审查进行评估。本文的其余部分组织如下。第二部分回顾了警员叙述与编辑的相关工作,以及用于NLU的语义解析和语言知识库。第三部分描述了文本语料库。第四部分概述了我们的方法。第五部分展示了结果。第六部分讨论了局限性、用途和后续步骤,第七部分总结。 ## II. 相关工作 符号NLU。这项工作使用符号NLU,因为我们的目标是从警员叙述中提取可类型化、检查和审计的事实。先前的工作表明,稳健的NLU有助于超越浅层字符串匹配,转向支持推理的文本表示[4]。在我们的方法中,我们将任务视为从编辑过的警员叙述中进行知识提取(KE),遵循NLU传统,即在推理之前以支持语义解释的形式表示句子意义[5]。警员叙述中有些信息并非直接陈述,需要背景知识进行解释。先前的工作已将知识瓶颈确定为符号NLU的主要问题之一[20],并表明定义可以支持恢复隐式的常识关系[19]。这与我们的方法相关,因为事件解释通常依赖于提供更深层次理解的概念关系。 词汇资源。对于许多自然语言处理应用,语义上有意义的句子结构最好以谓词-论元结构的形式表示,即“谁对谁做了什么”,我们的提取管道依赖于从警员叙述中识别此类信息。在创建一致的角色标注资源方面已取得很大进展,特别是在PropBank(PB)中,用于谓词含义(动词)和角色(论元),通常使用标签如ARG0或ARG1进行标注[21]。这些资源支持我们恢复事件结构的语义解析。在我们的设置中,我们使用词汇资源进行事件解释和论元类型化。特别地,VerbNet(VN)将动词组织成语义相关的类别[13],而WordNet(WN)按同义词集和上位词关系组织[16]。我们通过SemLink[26]使用VerbNet将谓词含义连接到语义类,并使用WordNet对提取的论元进行“是一种”检查,帮助确定类型,如车辆、结构或结构部件。 语义层。如图1所示,我们的工作流程将叙述解析为抽象语义表示(AMR)作为中间语义层。AMR将句子意义表示为谓词及其参与者的图,先前的工作研究了句子意义和准确解析的挑战[14,27]。在我们的系统中,AMR为本体提供语义输入。虽然FrameNet提供了一种表示事件结构和框架语义的方式[6],但我们使用AMR图,因为它们提供了明确的图结构和PropBank含义标签,可直接与我们的映射规则集成。通常,事件是一个动作或发生,框架是一个记录,将事件的细节组织成组或槽。例如,一个进入框架可能具有入口点、方法、结构和工具槽,而盗窃框架可能具有被盗物品和价值提及。这使得AMR更适合我们的管道,其中句子意义必须映射到实体、事件和角色。 本体。在语义Web社区中,本体提供了形式化的模式来编码支持验证和推理的约束[1],因此在语义解析之后,我们将提取的实体和事件映射到本体中。先前在警务领域的本体工作进一步表明,可以为财产犯罪概念开发显式模式和逻辑约束[17],这激励我们使用此类表示进行可审计的警员叙述分析。 时间事件排序。本部分工作涉及按时间对事件进行排序,以便调查人员对事件时间线有更清晰的了解,例如句子“嫌疑人在进入住宅前打破了窗户”显示了时间关系框架[3]。事件表示也已在认知系统中实现,其中一些未来状态依赖于过去事件[2]。虽然我们没有实现完整的框架,但我们借鉴了一些想法来帮助提取和验证事件之间的时间关系,如第IV-E节所示。 警员叙述与编辑。警员报告具有固定字段和执法人员撰写的叙述。我们只关注叙述,因为它们通常包含结构化字段可能未完全捕获的重要细节。然而,大规模处理叙述很困难,因为事件报告可能不完整或不一致[12]。在早期研究中,有人认为仅文本分析不足以应对现实世界的挑战[9]。该领域最近的工作已将文本挖掘和机器学习应用于其他非结构化犯罪事件叙述(例如法庭文件)以处理分类任务(例如犯罪类型)。虽然我们在方法中没有使用机器学习,但这些研究显示了自由文本在事件报告中的价值,同时也表明深层模式无法仅从表面结构捕获[7]。警员叙述中可能包含个人身份信息(PII),并且由于警务是一个敏感领域,常见的预处理步骤是在语义解析、本体填充和审计之前进行编辑[22]。因此,编辑是我们工作流程中的必要步骤。 OpenBWC。这项工作扩展了OpenBWC¹,这是罗切斯特理工学院、罗切斯特警察局(RPD)和奥尔巴尼大学犯罪学家之间的合作开源研究计划,旨在对随身摄像机(BWC)视频进行伦理AI和统计分析,通过添加符号NLU组件,通过本体管道用于RPD内部编辑过的警员叙述[25]。 ¹OpenBWC是一项旨在对随身摄像机(BWC)视频进行伦理AI和统计分析的开源研究计划:https://openbwc.org/ ## III. 数据集与预处理 这项工作使用了450份RPD事件报告的文本语料库,涵盖2014年至2025年间的五种犯罪类别:入室盗窃、盗窃、机动车盗窃、抢劫和持有赃物。这些报告以未编辑形式提供。我们只处理财产犯罪,因为其叙述通常描述事件如何开始,并包含有关个人、车辆和物品的有用细节。 表 I:数据集组成与叙述统计。 表I显示了按类别划分的语料库细分及词数统计。叙述长度从40到868个词不等。这一点很重要,因为更密集的叙述包含更多的实体和事件描述。在分析之前,我们执行以下步骤: 1. 提取:处理源PDF以提取叙述部分,然后转换为纯文本。我们执行光学字符识别(OCR),以300DPI渲染并通过Tesseract[24]处理,移除页眉、页脚和工件。然后将提取的全大写文本转换为句子大小写。 2. OCR:系统纠正错误;例如,将|替换为I。 3. 编辑:我们使用spaCy的命名实体识别²、正则表达式和元数据来编辑PII,例如姓名、地址、出生日期和车辆详细信息。我们保留简写符号(V代表受害者,S代表嫌疑人,W代表证人),使用相同的占位符(如[PERSON_1])来引用同一实体,并考虑报告警员的第一人称提及。这将输出编辑后的叙述文件和JSON格式的审计文件,记录所有占位符的位置。 ²spaCy API:https://spacy.io/api 表 II:整个语料库审计日志的编辑摘要。 - ¹GPE = 命名实体识别中的地缘政治实体。指具有治理机构的地理位置,如国家、城市、州、省和市。 在表II中,我们报告了编辑实体的占位符总数以及每份报告的平均占位符数量。 分析单元。事件报告作为单个文档进行分析。由于叙述中包含敏感数据,该语料库不公开。所有事件报告均在安全且受控的研究计算环境中维护和处理,以便进行批量执行和大规模分析[18]。 ## IV. 方法论 本文提出了一个框架,通过符号管道将警员叙述转换为证据关联事实。算法1总结了符号提取管道。该算法首先从本体T₀和定义语料库D_def中诱导出本体T和一组来自语义描述L的逻辑模板(第1行)。例如,盗窃的定义可以提供一个模板,说明带有施动者、物品和缺乏许可的拿取事件支持盗窃解释。对于所有报告d∈D,提取叙述n及其元数据m(第3-4行)。例如,叙述可能为“John Doe打破了窗户并拿走了钱包”,元数据可能包括案件编号、犯罪类型和日期。然后使用元数据规则集R编辑叙述n,得到编辑后的叙述n'和编辑日志ℓ_d(第5-6行)。这里将“John Doe”替换为[PERSON_1]。接下来,每个句子由语义解析器P解析,得到一组AMR图G_d(第7行)。例如,句子“[PERSON_1]打破了窗户并拿走了钱包”可能产生谓词节点如break-01和take-01及其论元。然后,将得到的AMR图转换为映射到类和角色的事实集A_N(d)(第8行),并且单独将元数据转换为本体事实
相似文章
Decompose-and-Refine: 基于参数化检索的结构化法律问答
提出Decompose-and-Refine(DaR)框架,用于基于成文法的法律问答。该框架将复杂问题分解为原子子问题,并生成参数化查询以实现精确的成文法检索,在KoBLEX基准测试上取得了改进。
@akshay_pachaar: https://x.com/akshay_pachaar/status/2058976178908885210
解释了如何通过使用Pydantic模式定义本体来修复代理记忆,实现结构化提取到知识图谱中以进行多跳推理,并提供了一个开源解决方案(Zep)。
连接法律解释与形式逻辑:忠实性、假设与人工智能法律推理的未来
本文指出了人工智能法律推理中法律解释与形式逻辑之间的系统性鸿沟,提出了一种神经符号方法来弥合这一鸿沟,并展示了在严格形式蕴含条件下重新标注法律自然语言推理数据时出现的显著标签偏移。
ReasonOps: 面向LLM推理轨迹的算子分割
ReasonOps 提出了一种无监督方法,用于对大型推理模型的思维链轨迹进行标注,识别出 7 个常出现的推理算子。该方法支持对 12 个模型和 8 个基准上的推理结构、模型识别和正确性预测进行分析。
从片段到语义:重新思考多语言事实核查的证据粒度
本文介绍了SEEK,一个用于多语言事实核查中语义证据提取的框架,该框架从完整文章中构建连贯的证据块,并使用LoRA微调多语言大语言模型,在宏观F1分数上相比基线提升了高达20%。