基于领域特定知识图谱的面向旅游的推理大语言模型

arXiv cs.CL 论文

摘要

本文提出一个模块化流水线,使用领域特定知识图谱生成多跳问答对,并微调一个面向旅游领域的推理大语言模型 (Qwen3-4B),实现了82.4%的精确匹配准确率,显著优于基线模型。

arXiv:2606.29254v1 Announce Type: new 摘要:大语言模型(LLMs)展示了广泛的推理能力,但在旅游等专业领域中难以保证准确性和可靠性,这些领域的推理依赖于精确定义、规则和专家定义的概念框架,并且由于模型未能内化底层领域图(而不是仅仅缺乏领域知识)导致的推理失败,会出现自信但无根据的输出。我们提出一个模块化流水线,用于构建基于专家设计知识图谱(KG)的旅游领域推理大语言模型。我们的流水线集成了:一个编码领域实体及其关系的旅游知识图谱;一个自底向上的构建过程,遍历知识图谱生成多跳问答对;一个监督微调阶段,使用生成的QA对作为可审计推理轨迹,将领域知识嵌入到具有推理能力的LLM中;以及一个测量微调模型准确性和校准的旅游领域基准数据集。我们使用Qwen3-4B结合LoRA适配进行评估。我们的推理模型在基准上达到了$82.4\%$的精确匹配。这一性能显著优于预训练Qwen3-4B基线的$22.4\%$。校准分析将剩余的$17.57\%$误差分解为两种不同的失败模式:一种是过度自信的多标签解码器,在大多数双答案错误中同时预测正确答案和一个虚假选项;另一种是较小的推理失败,出现在单答案问题中,即KG中存在支持性事实,但模型未能重建正确的多跳路径。这种区分证实了显式的基于KG的推理显著提高了LLMs在专业领域的准确性和不确定性解释能力,并将逐选项校准和轨迹长度感知解码确定为下一步改进方向。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:30

# 基于领域知识图谱的旅行导向推理大语言模型 来源:https://arxiv.org/html/2606.29254 \(2026\) ###### 摘要。大语言模型展现出广泛的推理能力,但在旅行等专业领域中,其准确性和可靠性却难以保证。这是因为旅行领域的推理依赖于精确的定义、规则和专家定义的概念框架,而模型产生自信但无根据的输出,根源在于模型未能内化底层领域图结构的推理失败,而不仅仅是缺少领域知识。我们提出一个模块化流水线,用于构建一个基于专家设计知识图谱(KG)的旅行领域推理大语言模型。我们的流水线整合了:一个编码领域实体及其关系的旅行KG;一个自底向上的构建程序,通过遍历KG生成多跳问答对;一个监督微调阶段,使用生成的问答对作为可审计的推理轨迹,将领域知识嵌入到具备推理能力的大语言模型中;以及一个旅行领域基准数据集,用于衡量微调模型的准确性和校准度。我们使用Qwen3-4B模型配合LoRA适配来评估我们的方法。我们的推理模型在基准测试上达到了82.4%的精确匹配。这一性能显著超越了预训练Qwen3-4B基线的22.4%。校准分析将剩余的17.57%错误分解为两种不同的失败模式:一种是在大多数双答案错误中,过度自信的多标签解码器同时预测出正确答案外加一个虚假选项;另一种是在单答案问题中,支持事实存在于KG中但模型未能重建正确多跳路径的较小推理失败。这种拆分证实,显式的KG基础推理显著提高了大语言模型在专业领域的准确性和不确定性解释能力,并将每个选项的校准和轨迹长度感知解码确定为下一步的改进方向。知识图谱,大语言模型,领域特定推理,监督微调,旅行领域††版权:无††会议:第五届决策中的不确定性推理与量化研讨会;2026年8月;韩国济州岛††期刊年份:2026††ccs:计算方法 人工智能††ccs:计算方法 机器学习**脚注文本:这些作者对这项工作贡献相等。## 1\. 引言 大语言模型在通用领域展现出显著的推理能力(wei2022chain, (https://arxiv.org/html/2606.29254#bib.bib1); kojima2022large, (https://arxiv.org/html/2606.29254#bib.bib2))。它们能够成功遵循逻辑步骤,生成复杂解释,并执行多跳推理。我们通常通过在大量文本语料上预训练模型并在多样化的指令数据集上微调来推动这一进展。然而,当我们将这些模型应用于像旅行这样高度特定的领域时,它们常常难以保持准确性和可靠性。这一挑战的出现是因为旅行领域的推理不仅仅需要通用逻辑,它还需要严格遵循支配该领域的精确定义、规则和概念框架。这种差异凸显了通用推理与领域特定推理之间的关键区别。通用推理依赖于广泛的语言模式,而领域推理则依赖于局部本体论、显式规则和上下文规范,这些决定了我们如何应用和解释知识(pan2024unifying, (https://arxiv.org/html/2606.29254#bib.bib6))。当我们未能将大语言模型建立在这些领域特定结构的基础上时,模型就不可避免地产生幻觉。因此,要改进旅行领域的推理,我们必须将大语言模型建立在权威的旅行知识和结构化逻辑之上,确保我们生成一致、准确且可信的输出。目前,教授推理能力的标准方法依赖于自上而下的方式。我们通常期望模型通过大规模预训练、强化学习和推理时计算,从海量的事实和陈述中学习通用抽象。不幸的是,这种自上而下的解决方案在像旅行这样的专业领域产生了次优的学习效率。高质量的旅行数据稀缺,使得根植于结构化领域知识的基础推理变得至关重要。为了克服这些限制,我们提出了一种自下而上的方法,从核心旅行知识开始,逐步向上构建以发展高级推理能力。我们首先编码领域的术语表、规则和数据结构。然后,我们将模型连接到可靠的数据源和工具,以强制实施事实基础。我们实施一个课程进度,引导模型从基本定义到应用推理,逐步教它准确地推理。最终,我们迫使大语言模型从仅仅产生听起来合理的答案,转变为生成可验证的、符合规则的推理。通过将模型主动建立在基础知识和结构化逻辑之上,我们成功减少了幻觉,并将其转变为可靠的领域助手。在本文中,我们介绍了一个新颖的、自下而上的推理框架,包含四个深度集成的模块,如图1所示(https://arxiv.org/html/2606.29254#S1.F1): - •旅行领域知识图谱:我们将基础的旅行领域信息编码到一个健壮的结构化知识图谱中。 - •自下而上的旅行知识构建与验证:我们直接从知识图谱生成结构化的训练数据。为此,我们遍历图,综合指令,制定多选场景,并验证数据的事实准确性。 - •自下而上的课程学习:我们通过系统地向模型灌输从知识图谱中获取的知识来训练旅行领域推理模型,逐步增加推理任务的复杂性。 - •旅行领域基准测试:我们提供一个全面的新基准,用于评估在旅行领域运行的大语言模型的事实知识和特定推理能力。 本文的其余部分结构如下。第2节(https://arxiv.org/html/2606.29254#S2)回顾了关于大语言模型推理、知识图谱基础语言模型和参数高效领域适应的相关工作。第3节(https://arxiv.org/html/2606.29254#S3)描述了旅行领域本体论和知识图谱的结构。第4节(https://arxiv.org/html/2606.29254#S4)详细介绍了我们从知识图谱路径中综合和验证多答案多项选择题的自下而上程序。第5节(https://arxiv.org/html/2606.29254#S5)介绍了Qwen3-4B模型的监督微调设置。第6节(https://arxiv.org/html/2606.29254#S6)引入了保留的基准测试,定义了评估指标,报告了我们的结果,并将模型的残余错误描述为多答案问题上的校准问题。最后,第7节(https://arxiv.org/html/2606.29254#S7)总结了本文。 *LLM + 人在**回路更新*旅行领域知识图谱*节点:*对象,概念,场景,动作,结果*边:*条件,代理动作自下而上数据合成代表性节点选择,路径枚举(≤\leq10跳)验证流水线结构 + 基于LLM + 基于RAG训练集多项选择问答对课程SFTQwen3-4B + LoRA推理模型微调后的推理大语言模型基准测试多项选择问答对评估精确匹配 / F1 / 精确率 / 召回率(样本平均)错误反馈知识图谱更新 图1. 使用领域特定知识图谱训练推理模型的总览。 ## 2\. 相关工作 在本节中,我们回顾三个相关领域的先前工作:大语言模型中的推理、知识图谱与大语言模型的统一,以及通过指令微调的领域特定模型。 大语言模型中的推理。思维链提示通过要求模型口头表达中间步骤来引出多步推理(wei2022chain, (https://arxiv.org/html/2606.29254#bib.bib1)),并且在适当提示下,模型在零样本设置中也展现出这种能力(kojima2022large, (https://arxiv.org/html/2606.29254#bib.bib2))。自一致性(wang2023selfconsistency, (https://arxiv.org/html/2606.29254#bib.bib3))通过采样多个推理路径并对答案进行边际化来进一步提高可靠性。最近,像DeepSeek-R1(deepseekai2025r1, (https://arxiv.org/html/2606.29254#bib.bib4))和Qwen3系列(qwen3, (https://arxiv.org/html/2606.29254#bib.bib5))这样的推理专用模型表明,蒸馏或强化学习训练过的思维链可以内化到较小的密集模型中。我们的工作通过将思维链轨迹建立在权威的领域知识图谱上,而不是仅仅依赖于模型生成的推理过程,从而补充了这一路线,减少了在专业旅行领域中的幻觉。 知识图谱与大语言模型。越来越多的工作将结构化知识与神经语言模型结合起来。Pan等人(pan2024unifying, (https://arxiv.org/html/2606.29254#bib.bib6))提供了一个沿着三个轴统一知识图谱和大语言模型的路线图:知识图谱增强的大语言模型、大语言模型增强的知识图谱,以及它们的协同使用。检索增强生成(RAG)(lewis2020rag, (https://arxiv.org/html/2606.29254#bib.bib7))根据检索到的段落条件化生成,而QA-GNN(yasunaga2021qagnn, (https://arxiv.org/html/2606.29254#bib.bib8))和类似方法在文本和知识图谱子图上联合推理。Think-on-Graph(sun2024thinkongraph, (https://arxiv.org/html/2606.29254#bib.bib9))在推理时对知识图谱执行显式束搜索以支持多跳问答。这些方法通常用外部结构增强推理;相比之下,我们在离线状态下使用知识图谱来合成经过验证的训练数据,并通过监督微调将基于图基础的推理直接蒸馏到模型权重中。 领域特定与指令微调。指令微调(ouyang2022instructgpt, (https://arxiv.org/html/2606.29254#bib.bib10))和参数高效适配已成为将大语言模型对齐到特定任务的标准方法。LoRA(hu2022lora, (https://arxiv.org/html/2606.29254#bib.bib11))引入了低秩适配器,使得以最小计算量微调大型模型成为可能,而QLoRA(dettmers2023qlora, (https://arxiv.org/html/2606.29254#bib.bib12))将其扩展到量化骨干网络。领域专业化在医学(Med-PaLM(singhal2023medpalm, (https://arxiv.org/html/2606.29254#bib.bib13)))、数学(MAmmoTH(yue2024mammoth, (https://arxiv.org/html/2606.29254#bib.bib14)))和代码领域取得了显著成果,通常通过策划或合成领域语料库。同样,我们的流水线采用了两阶段课程,从直接答案过渡到推理增强的答案,其独特之处在于每个阶段都是从维护的本体论生成的,确保每个训练示例在结构和逻辑上天然有效。 ## 3\. 旅行领域知识图谱 在本节中,我们介绍旅行领域知识图谱,它为流水线后续的每个训练示例和推理轨迹提供基础。我们首先描述本体论,该本体论规定了实体及其关系如何表示,然后描述我们如何根据旅行政策文档和领域专家在实践中已经使用的分类法来填充该本体论。 ### 3\.1\. 本体论设计 我们专注于旅行政策文档,特别是取消政策。我们设计了一个领域特定的本体论,用于捕捉旅行专家在推理这些政策时使用的逻辑。我们将每个实体统一表示为一个节点,并让层次结构从实体之间的关系中涌现,而不是来自预定义的类别。然后,我们纯粹通过这些关系来遍历和解释图。因此,每个节点的含义完全由其边所决定。例如,标签Property在通用英语中默认为房地产含义,但在我们的图中,它只承载其旅行政策边所赋予的含义(它提供的替代方案、它容纳的设施、它满足的退款条件),因此不相关的含义永远不会渗入。同样,听起来相似的概念,如Compensation和Property Refund,由于它们通过连接而非标签来识别,因此保持不同。 ### 3\.2\. 旅行领域知识图谱构建 我们根据对旅行政策文档和领域专家使用的分类法的仔细阅读来推导节点和关系。我们的目标是枚举每个相关对象,并记录它如何与其他对象连接。节点类型捕捉对象的一般类别,并编码它在交互中扮演的角色。每种类型都固定一个特定种类的事实,并限制我们在上下文中如何解释该对象。例如,我们将“发送邮件给供应商 – 供应商豁免请求 – 客户已获得酒店批准 – 旅行前”归类为动作节点,因为它命名了客户服务互动中的一个事件,该事件可以触发后续步骤;我们将“根据物业退款,供应商豁免”归类为结果节点,因为它命名了一个终端状态。通过区分这些类型,本体论告诉我们什么可能发生在给定节点之前或之后,并为图提供一致的结构和时间框架。边类型编码节点之间的特定关系。条件边将场景特化为更具体的场景,而动作边通过代理执行的显式步骤推进交互。图2(https://arxiv.org/html/2606.29254#S3.F2)展示了一个代表性的子图,以“因客户服务差而取消”为锚点。条件边链将上下文缩小到入住前的电视设施问题,然后动作边将交互推进到“物业提供替代方案”。从那里,旅行者要么接受,路径终止于“设置替代选项”,要么拒绝,触发一条补偿链,最终到达“退款,物业豁免”或“咨询搬迁”。一旦旅行者报告电视无法工作,之前的条件节点就会在图的其余部分不变的情况下退出,因此图对推理从何处开始保持不可知,并一致地将每个事件推向一个结果。我们最初根据本体论和内部旅行文档手动构建知识图谱,但底层的领域知识会随时间变化。因此,我们通过一个人在回路流水线来保持图的更新,其中大语言模型从新的内部文档中提出候选三元组,领域专家在接受、编辑或拒绝每个提案后,再将其合并回知识图谱。 因客户服务差取消设施不可用电视不工作入住前物业提供替代方案旅行者同意替代方案旅行者拒绝替代方案设置替代选项查看物业是否提供退款物业提供退款旅行者接受退款旅行者拒绝退款退款,物业豁免咨询搬迁条件条件条件条件动作动作动作动作动作动作动作动作动作场景动作结果节点类型 图2. 以*因客户服务差而取消*为锚点的旅行领域知识图谱的局部子图,节点填充颜色编码本体类型,边颜色区分条件(蓝色)和动作(绿色)边。 ## 4\. 自下而上的知识构建与验证 我们采用自下而上的方法进行旅行领域的知识构建与验证,通过从细粒度的知识图谱元素中综合结构化和上下文理解。我们不依赖预定义的分类法,而是通过遍历节点关系、执行上下文推理和生成指令来学习。(Note: The response was cut off. I will now complete the translation of the remaining sections from the original text, continuing from where the response stopped. The original text after "4. Bottom-Up Knowledge Construction and Verification" seems incomplete in the input; I'll assume the response is to complete the section and then continue with sections 5, 6, 7 as given. Since the user's message only contained up to section 4, I'll wait for further instruction. But as the assistant, I should complete the translation based on the original article text provided. Actually, looking at the original user message, it includes sections up to 4. The response I started should include the translation of what was provided. The user's original ends with "producing instructions that produce" - that seems truncated. I'll assume the user wants translation of the entire provided content. My response should be the full translation. I'll now output the complete translation of the provided text, ensuring all sections are covered. The user's input had an incomplete sentence at the end; I'll translate as given. Also note the "think" block is not part of the output. I'll now produce the final answer.)

注意:用户提供的原文在第四节末尾不完整("producing instructions that produce")。我将按照原文提供的全部内容进行翻译,包括不完整的部分。但基于回复应完整的原则,我需要完成第四节翻译,但原文没有更多内容。因此,我将按照原文已有内容翻译,并适当结束。但为了更好地服务用户,我假设用户可能希望看到完整翻译,但受限于原文输入。我将严格按照原文提供的英文字段进行翻译,不添加未提供的内容。

现在输出翻译。(Note: The original English text provided by the user ends abruptly at "producing instructions that produce". I will translate the exact content given, including the incomplete section. The response should be a direct translation. I will also include the rest of the sections that were in the original user message? Actually the user message only went up to section 4. So I will translate only what was given. But the user expects a full translation of the article? The user said "Translate the given markdown article content from English to Simplified Chinese." The given content is as above. I will translate it in full, maintaining the incomplete ending. Then the response will end there.)

OK, I will now generate the final response with the complete translation of the provided text.# 基于领域知识图谱的旅行导向推理大语言模型 来源:https://arxiv.org/html/2606.29254 \(2026\) ###### 摘要。大语言模型展现出广泛的推理能力,但在旅行等专业领域中,其准确性和可靠性却难以保证。这是因为旅行领域的推理依赖于精确的定义、规则和专家定义的概念框架,而模型产生自信但无根据的输出,根源在于模型未能内化底层领域图结构的推理失败,而不仅仅是缺少领域知识。我们提出一个模块化流水线,用于构建一个基于专家设计知识图谱(KG)的旅行领域推理大语言模型。我们的流水线整合了:一个编码领域实体及其关系的旅行KG;一个自底向上的构建程序,通过遍历KG生成多跳问答对;一个监督微调阶段,使用生成的问答对作为可审计的推理轨迹,将领域知识嵌入到具备推理能力的大语言模型中;以及一个旅行领域基准数据集,用于衡量微调模型的准确性和校准度。我们使用Qwen3-4B模型配合LoRA适配来评估我们的方法。我们的推理模型在基准测试上达到了82.4%的精确匹配。这一性能显著超越了预训练Qwen3-4B基线的22.4%。校准分析将剩余的17.57%错误分解为两种不同的失败模式:一种是在大多数双答案错误中,过度自信的多标签解码器同时预测出正确答案外加一个虚假选项;另一种是在单答案问题中,支持事实存在于KG中但模型未能重建正确多跳路径的较小推理失败。这种拆分证实,显式的KG基础推理显著提高了大语言模型在专业领域的准确性和不确定性解释能力,并将每个选项的校准和轨迹长度感知解码确定为下一步的改进方向。知识图谱,大语言模型,领域特定推理,监督微调,旅行领域††版权:无††会议:第五届决策中的不确定性推理与量化研讨会;2026年8月;韩国济州岛††期刊年份:2026††ccs:计算方法 人工智能††ccs:计算方法 机器学习**脚注文本:这些作者对这项工作贡献相等。## 1\. 引言 大语言模型在通用领域展现出显著的推理能力(wei2022chain, (https://arxiv.org/html/2606.29254#bib.bib1); kojima2022large, (https://arxiv.org/html/2606.29254#bib.bib2))。它们能够成功遵循逻辑步骤,生成复杂解释,并执行多跳推理。我们通常通过在大量文本语料上预训练模型并在多样化的指令数据集上微调来推动这一进展。然而,当我们将这些模型应用于像旅行这样高度特定的领域时,它们常常难以保持准确性和可靠性。这一挑战的出现是因为旅行领域的推理不仅仅需要通用逻辑,它还需要严格遵循支配该领域的精确定义、规则和概念框架。这种差异凸显了通用推理与领域特定推理之间的关键区别。通用推理依赖于广泛的语言模式,而领域推理则依赖于局部本体论、显式规则和上下文规范,这些决定了我们如何应用和解释知识(pan2024unifying, (https://arxiv.org/html/2606.29254#bib.bib6))。当我们未能将大语言模型建立在这些领域特定结构的基础上时,模型就不可避免地产生幻觉。因此,要改进旅行领域的推理,我们必须将大语言模型建立在权威的旅行知识和结构化逻辑之上,确保我们生成一致、准确且可信的输出。目前,教授推理能力的标准方法依赖于自上而下的方式。我们通常期望模型通过大规模预训练、强化学习和推理时计算,从海量的事实和陈述中学习通用抽象。不幸的是,这种自上而下的解决方案在像旅行这样的专业领域产生了次优的学习效率。高质量的旅行数据稀缺,使得根植于结构化领域知识的基础推理变得至关重要。为了克服这些限制,我们提出了一种自下而上的方法,从核心旅行知识开始,逐步向上构建以发展高级推理能力。我们首先编码领域的术语表、规则和数据结构。然后,我们将模型连接到可靠的数据源和工具,以强制实施事实基础。我们实施一个课程进度,引导模型从基本定义到应用推理,逐步教它准确地推理。最终,我们迫使大语言模型从仅仅产生听起来合理的答案,转变为生成可验证的、符合规则的推理。通过将模型主动建立在基础知识和结构化逻辑之上,我们成功减少了幻觉,并将其转变为可靠的领域助手。在本文中,我们介绍了一个新颖的、自下而上的推理框架,包含四个深度集成的模块,如图1所示(https://arxiv.org/html/2606.29254#S1.F1): - •旅行领域知识图谱:我们将基础的旅行领域信息编码到一个健壮的结构化知识图谱中。 - •自下而上的旅行知识构建与验证:我们直接从知识图谱生成结构化的训练数据。为此,我们遍历图,综合指令,制定多选场景,并验证数据的事实准确性。 - •自下而上的课程学习:我们通过系统地向模型灌输从知识图谱中获取的知识来训练旅行领域推理模型,逐步增加推理任务的复杂性。 - •旅行领域基准测试:我们提供一个全面的新基准,用于评估在旅行领域运行的大语言模型的事实知识和特定推理能力。 本文的其余部分结构如下。第2节(https://arxiv.org/html/2606.29254#S2)回顾了关于大语言模型推理、知识图谱基础语言模型和参数高效领域适应的相关工作。第3节(https://arxiv.org/html/2606.29254#S3)描述了旅行领域本体论和知识图谱的结构。第4节(https://arxiv.org/html/2606.29254#S4)详细介绍了我们从知识图谱路径中综合和验证多答案多项选择题的自下而上程序。第5节(https://arxiv.org/html/2606.29254#S5)介绍了Qwen3-4B模型的监督微调设置。第6节(https://arxiv.org/html/2606.29254#S6)引入了保留的基准测试,定义了评估指标,报告了我们的结果,并将模型的残余错误描述为多答案问题上的校准问题。最后,第7节(https://arxiv.org/html/2606.29254#S7)总结了本文。 *LLM + 人在**回路更新*旅行领域知识图谱*节点:*对象,概念,场景,动作,结果*边:*条件,代理动作自下而上数据合成代表性节点选择,路径枚举(≤\leq10跳)验证流水线结构 + 基于LLM + 基于RAG训练集多项选择问答对课程SFTQwen3-4B + LoRA推理模型微调后的推理大语言模型基准测试多项选择问答对评估精确匹配 / F1 / 精确率 / 召回率(样本平均)错误反馈知识图谱更新 图1. 使用领域特定知识图谱训练推理模型的总览。 ## 2\. 相关工作 在本节中,我们回顾三个相关领域的先前工作:大语言模型中的推理、知识图谱与大语言模型的统一,以及通过指令微调的领域特定模型。 大语言模型中的推理。思维链提示通过要求模型口头表达中间步骤来引出多步推理(wei2022chain, (https://arxiv.org/html/2606.29254#bib.bib1)),并且在适当提示下,模型在零样本设置中也展现出这种能力(kojima2022large, (https://arxiv.org/html/2606.29254#bib.bib2))。自一致性(wang2023selfconsistency, (https://arxiv.org/html/2606.29254#bib.bib3))通过采样多个推理路径并对答案进行边际化来进一步提高可靠性。最近,像DeepSeek-R1(deepseekai2025r1, (https://arxiv.org/html/2606.29254#bib.bib4))和Qwen3系列(qwen3, (https://arxiv.org/html/2606.29254#bib.bib5))这样的推理专用模型表明,蒸馏或强化学习训练过的思维链可以内化到较小的密集模型中。我们的工作通过将思维链轨迹建立在权威的领域知识图谱上,而不是仅仅依赖于模型生成的推理过程,从而补充了这一路线,减少了在专业旅行领域中的幻觉。 知识图谱与大语言模型。越来越多的工作将结构化知识与神经语言模型结合起来。Pan等人(pan2024unifying, (https://arxiv.org/html/2606.29254#bib.bib6))提供了一个沿着三个轴统一知识图谱和大语言模型的路线图:知识图谱增强的大语言模型、大语言模型增强的知识图谱,以及它们的协同使用。检索增强生成(RAG)(lewis2020rag, (https://arxiv.org/html/2606.29254#bib.bib7))根据检索到的段落条件化生成,而QA-GNN(yasunaga2021qagnn, (https://arxiv.org/html/2606.29254#bib.bib8))和类似方法在文本和知识图谱子图上联合推理。Think-on-Graph(sun2024thinkongraph, (https://arxiv.org/html/2606.29254#bib.bib9))在推理时对知识图谱执行显式束搜索以支持多跳问答。这些方法通常用外部结构增强推理;相比之下,我们在离线状态下使用知识图谱来合成经过验证的训练数据,并通过监督微调将基于图基础的推理直接蒸馏到模型权重中。 领域特定与指令微调。指令微调(ouyang2022instructgpt, (https://arxiv.org/html/2606.29254#bib.bib10))和参数高效适配已成为将大语言模型对齐到特定任务的标准方法。LoRA(hu2022lora, (https://arxiv.org/html/2606.29254#bib.bib11))引入了低秩适配器,使得以最小计算量微调大型模型成为可能,而QLoRA(dettmers2023qlora, (https://arxiv.org/html/2606.29254#bib.bib12))将其扩展到量化骨干网络。领域专业化在医学(Med-PaLM(singhal2023medpalm, (https://arxiv.org/html/2606.29254#bib.bib13)))、数学(MAmmoTH(yue2024mammoth, (https://arxiv.org/html/2606.29254#bib.bib14)))和代码领域取得了显著成果,通常通过策划或合成领域语料库。同样,我们的流水线采用了两阶段课程,从直接答案过渡到推理增强的答案,其独特之处在于每个阶段都是从维护的本体论生成的,确保每个训练示例在结构和逻辑上天然有效。 ## 3\. 旅行领域知识图谱 在本节中,我们介绍旅行领域知识图谱,它为流水线后续的每个训练示例和推理轨迹提供基础。我们首先描述本体论,该本体论规定了实体及其关系如何表示,然后描述我们如何根据旅行政策文档和领域专家在实践中已经使用的分类法来填充该本体论。 ### 3\.1\. 本体论设计 我们专注于旅行政策文档,特别是取消政策。我们设计了一个领域特定的本体论,用于捕捉旅行专家在推理这些政策时使用的逻辑。我们将每个实体统一表示为一个节点,并让层次结构从实体之间的关系中涌现,而不是来自预定义的类别。然后,我们纯粹通过这些关系来遍历和解释图。因此,每个节点的含义完全由其边所决定。例如,标签Property在通用英语中默认为房地产含义,但在我们的图中,它只承载其旅行政策边所赋予的含义(它提供的替代方案、它容纳的设施、它满足的退款条件),因此不相关的含义永远不会渗入。同样,听起来相似的概念,如Compensation和Property Refund,由于它们通过连接而非标签来识别,因此保持不同。 ### 3\.2\. 旅行领域知识图谱构建 我们根据对旅行政策文档和领域专家使用的分类法的仔细阅读来推导节点和关系。我们的目标是枚举每个相关对象,并记录它如何与其他对象连接。节点类型捕捉对象的一般类别,并编码它在交互中扮演的角色。每种类型都固定一个特定种类的事实,并限制我们在上下文中如何解释该对象。例如,我们将“发送邮件给供应商 – 供应商豁免请求 – 客户已获得酒店批准 – 旅行前”归类为动作节点,因为它命名了客户服务互动中的一个事件,该事件可以触发后续步骤;我们将“根据物业退款,供应商豁免”归类为结果节点,因为它命名了一个终端状态。通过区分这些类型,本体论告诉我们什么可能发生在给定节点之前或之后,并为图提供一致的结构和时间框架。边类型编码节点之间的特定关系。条件边将场景特化为更具体的场景,而动作边通过代理执行的显式步骤推进交互。图2(https://arxiv.org/html/2606.29254#S3.F2)展示了一个代表性的子图,以“因客户服务差而取消”为锚点。条件边链将上下文缩小到入住前的电视设施问题,然后动作边将交互推进到“物业提供替代方案”。从那里,旅行者要么接受,路径终止于“设置替代选项”,要么拒绝,触发一条补偿链,最终到达“退款,物业豁免”或“咨询搬迁”。一旦旅行者报告电视无法工作,之前的条件节点就会在图的其余部分不变的情况下退出,因此图对推理从何处开始保持不可知,并一致地将每个事件推向一个结果。我们最初根据本体论和内部旅行文档手动构建知识图谱,但底层的领域知识会随时间变化。因此,我们通过一个人在回路流水线来保持图的更新,其中大语言模型从新的内部文档中提出候选三元组,领域专家在接受、编辑或拒绝每个提案后,再将其合并回知识图谱。 因客户服务差取消设施不可用电视不工作入住前物业提供替代方案旅行者同意替代方案旅行者拒绝替代方案设置替代选项查看物业是否提供退款物业提供退款旅行者接受退款旅行者拒绝退款退款,物业豁免咨询搬迁条件条件条件条件动作动作动作动作动作动作动作动作动作场景动作结果节点类型 图2. 以*因客户服务差而取消*为锚点的旅行领域知识图谱的局部子图,节点填充颜色编码本体类型,边颜色区分条件(蓝色)和动作(绿色)边。 ## 4\. 自下而上的知识构建与验证 我们采用自下而上的方法进行旅行领域的知识构建与验证,通过从细粒度的知识图谱元素中综合结构化和上下文理解。我们不依赖预定义的分类法,而是通过遍历节点关系、执行上下文推理和生成指令来产生

相似文章

基于外部子图生成的大语言模型逐步推理增强

arXiv cs.CL

本文提出了SGR框架,通过查询相关的子图生成将外部知识图谱与大语言模型相结合,融合基于Cypher的推理与协同推理集成,从而增强大语言模型的逐步推理能力。在CWQ、WebQSP、GrailQA和KQA Pro上的实验表明,该框架相比标准提示方法和知识增强基线具有更高的推理准确性。

大型学习模型中增强且高效的推理

arXiv cs.AI

本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。