Grounded Optimization:一种用于减少自动个人文档重写中LLM幻觉的分层工程框架
摘要
本文提出了Grounded Optimization,一个五层框架,用于减少自动个人文档重写中的LLM幻觉。实验表明,在各种模型和温度设置下,幻觉率显著降低。
arXiv:2607.01457v1 公告类型:新
摘要:大语言模型(LLMs)正越来越多地被应用于面向申请人跟踪系统的简历优化中,这引入了不同于一般文本生成的幻觉故障:不合时宜的技术注入、跨领域术语污染、结构突变以及内容捏造。我们提出了Grounded Optimization,一个五层框架,结合了时间上下文验证、确定性污染检测、结构不变性约束、提示层面约束以及一个评估器代理。
在对三个LLM、四个温度设置以及六种层配置进行的消融实验中,使用跨越14个行业的25份合成简历,未受防御的基线每份简历会产生2.48-5.36个检测到的幻觉。在独立于主动防御的检测器中,所有条件下时间幻觉减少了50-95%;总体检测到的幻觉率降至0.04-0.24。仅使用提示层面约束,在低温度下配合一个能力较强的指令跟随模型即可实现零检测幻觉;较高的温度和较弱的模型则显示出需要确定性层作为补充。我们发布了污染分类法、评估代码和原始数据。
查看缓存全文
缓存时间: 2026/07/03 05:40
# 接地优化:一种用于减少自动化个人文档重写中LLM幻觉的分层工程框架
来源:https://arxiv.org/html/2607.01457
Shashank Indukuri sinduku1@depaul\.edu & Adarsh Agrawal¹ adagrawal@cs\.stonybrook\.edu
###### 摘要
大型语言模型(LLM)越来越多地被用于针对申请人跟踪系统的简历优化,这引入了与通用文本生成不同的幻觉失败模式:时代错置的技术注入、跨领域术语污染、结构突变和内容捏造。我们提出了**接地优化**,这是一个五层框架,结合了时序上下文验证、确定性污染检测、结构不变性强制、提示层接地以及一个评估器智能体。
在跨三个LLM、四个温度设置和六种层配置的消融实验中(基于涵盖14个行业的25份合成简历),未加防御的基线每份简历产生2.48–5.36次检测到的幻觉。在独立于主动防御的检测器中,所有条件下时序幻觉减少50–95%;总体检测到的幻觉率降至0.04–0.24。在低温度下使用能力强的指令遵循模型时,仅提示层接地即可实现零检测幻觉;更高温度和较弱模型则揭示了确定性层作为补充的必要性。我们发布了污染分类、评估代码和原始数据。
## 1 引言
大型语言模型在文档优化中的应用增长迅速,其中简历定制代表了商业上最活跃的应用之一。旨在改善简历与职位描述及ATS评分算法匹配度的重写服务,现在处理大量文档。然而,LLM通用文本生成中记录到的幻觉行为[1 (https://arxiv.org/html/2607.01457#bib.bib1),2 (https://arxiv.org/html/2607.01457#bib.bib2)]在应用于个人文档时以特别有害的方式表现出来:
1. 1.**时序捏造**:优化2018年软件工程职位的LLM可能注入对LangChain(2022年末发布)或Mixtral(2023年12月发布)的引用,从而对候选人的经验时间线做出可验证的虚假声明。
2. 2.**跨领域污染**:当重写一个以AWS为中心的公司角色时,模型可能引入Azure或GCP术语以匹配职位描述关键词,从而添加原始角色中不存在的多云术语。
3. 3.**结构突变**:模型可能为了减少输出长度而静默合并、删除或压缩要点,在此过程中移除真实的成就。
4. 4.**内容捏造**:模型可能编造公司名称、夸大指标或添加候选人从未获得的认证。
这些失败会带来具体后果:候选人可能在不知情的情况下提交包含虚假声明的简历,从而面临被取消资格或解雇的风险。与聊天机器人或搜索摘要中的幻觉不同(用户可以交互式验证输出),简历优化通常以批量模式进行,人工审查极少。
幻觉缓解已在开放域问答[3 (https://arxiv.org/html/2607.01457#bib.bib3)]、摘要生成[4 (https://arxiv.org/html/2607.01457#bib.bib4)]和检索增强生成[5 (https://arxiv.org/html/2607.01457#bib.bib5)]领域得到广泛研究。此前针对个人文档优化中幻觉的工作较为有限。并行的系统级工作已开始将反幻觉机制集成到简历定制管道中(例如[6 (https://arxiv.org/html/2607.01457#bib.bib6)]),但据我们所知,尚无已发表的工作将底层幻觉模式描述为分类体系,或系统地隔离各个防御层的贡献。
此领域中的真实依据并非外部知识库,而是候选人自身的职业历史——LLM将其作为输入接收,并且必须**在不扭曲的前提下增强**。
我们提出**接地优化**,这是一个五层纵深防御框架,通过不同的机制解决每种幻觉模式。前两层解决了我们观察到的最常见失败:**时序验证**(第3.1节 (https://arxiv.org/html/2607.01457#S3.SS1))通过在每条提示中嵌入发布日期间约束,阻止模型向历史角色注入事后技术;**确定性污染检测器**(第3.2节 (https://arxiv.org/html/2607.01457#S3.SS2))使用包含257个服务的正则表达式分类来捕获云提供商渗透,而无需引入另一个LLM(后者会带来额外的幻觉面)。**结构强制**(第3.3节 (https://arxiv.org/html/2607.01457#S3.SS3))处理要点压缩:它在优化前后计数角色和要点数量,并拒绝丢失过多的输出。**提示层接地**(第3.4节 (https://arxiv.org/html/2607.01457#S3.SS4))将关于教育、认证和公司名称的显式不可变性规则嵌入到智能体提示中,在确定性检查应用之前提供第一道防线。最后,**评估器智能体**(第3.5节 (https://arxiv.org/html/2607.01457#S3.SS5))部署一个单独的LLM实例作为质量门控,可以拒绝并重新触发管道(部分独立;关于H2的特定耦合注意事项,见第6.1节 (https://arxiv.org/html/2607.01457#S6.SS1))。
我们的框架实现为一个基于LangGraph[7 (https://arxiv.org/html/2607.01457#bib.bib7)]的多智能体系统,通过五个并行的专业化智能体处理简历,每个智能体均在完整防御栈下运行。该系统包含一个后备合并机制,将最佳LLM输出与保留的原始内容结合,以保留所有原始内容(第3.6节 (https://arxiv.org/html/2607.01457#S3.SS6))。
本文的贡献包括:
1. 1.**针对个人文档优化的幻觉模式分类**,区分时序、跨领域、结构和内容捏造失败(第2节 (https://arxiv.org/html/2607.01457#S2))。
2. 2.**一个五层工程框架**,结合了确定性验证、提示工程和多智能体对抗性检查,并作为功能性多智能体系统实现和评估(第3节 (https://arxiv.org/html/2607.01457#S3))。
3. 3.**一个确定性云提供商污染检测器**,覆盖AWS、GCP、Azure及本地栈的257个服务,具有两级置信度评分(第3.2节 (https://arxiv.org/html/2607.01457#S3.SS2))。
4. 4.**跨16种实验条件的消融与敏感性分析**(三个LLM、四个温度、六种层配置、680次LLM调用),描述了各层贡献,并记录了评估局限性(第4节 (https://arxiv.org/html/2607.01457#S4)、第6.1节 (https://arxiv.org/html/2607.01457#S6.SS1))。
## 2 个人文档的幻觉分类
我们识别出个人文档优化中的四种不同幻觉模式,每种都有独特的检测需求和后果。
### 2.1 时序捏造(H1)
LLM引入了在声称时间段内不存在的技术引用。在技术领域,新工具快速涌现并带有强烈的ATS关键词信号,这在我们实验中是一种常见的失败模式。一个从2019年1月到2021年3月的角色被重写为“使用LangChain和向量数据库实现RAG管道”,尽管LangChain于2022年末发布,RAG范式[5 (https://arxiv.org/html/2607.01457#bib.bib5)]虽在2020年引入但直到2022年末才广泛采用。我们将其归因于训练数据伪影:模型没有机制来学习哪些工具在特定年份相对于特定人的就业日期存在。
### 2.2 跨领域污染(H2)
在我们实验中,跨领域污染被证明是主要的失败模式(基线事件中的79–89%)。模型引入了原始角色中不存在的技术生态系统的术语:一个以AWS为重点的职位因职位描述提到多云而获得了Azure或GCP引用。在一个测试中,一个AWS独家公司角色(“使用AWS Glue和Athena管理数据管道”)被重写为“使用Azure Data Factory和Synapse Analytics编排ETL工作流”——引入了原始角色中不存在的Azure术语。模型在优化关键词覆盖时将云服务视为可互换的同义词,并且没有组织技术约束的意识。
### 2.3 结构突变(H3)
结构突变是一种更微妙的失败模式,其中模型并未捏造信息,而是将其压缩。一个包含8个要点的角色可能返回4或5个“增强”条目,覆盖相似领域但处于更高抽象层次,而最独特的成就——那些区分候选人的内容——则被静默折叠到通用摘要中,例如“维护和优化生产系统”。与其他幻觉模式不同,结构突变**移除**了真实性而非添加虚假内容,使其更难通过表面审查检测。根本原因似乎是LLM将简洁性内化为质量信号,导致在没有明确指令的情况下将“优化”解读为“压缩”。
### 2.4 内容捏造(H4)
内容捏造是最直接的失败模式:模型编造具体细节,例如虚构的公司名称、夸大的指标(在未提及性能数字的角色中声称“将API延迟降低90%”),以及不存在的认证。这种情况在我们数据中出现的频率低于污染或时序捏造,但事后最难检测,因为捏造的指标看起来像是合理的候选人成就,并且需要访问候选人的实际工作历史才能验证。
## 3 防御框架
我们的分层防御通过不同的层解决每种幻觉模式,如图1 (https://arxiv.org/html/2607.01457#S3.F1)所示。五层中有两层在生成时起作用:第4层在LLM调用**之前**将不可变性约束嵌入到智能体提示中,使其在任何给定的优化周期中成为第一道防御。第1–3层和第5层在生成后起作用,在输出被接受之前进行验证并可能回退。各层按其在验证管道中的角色编号;单个周期内的执行顺序为:L4(提示注入)→ LLM调用 → L1–L3(输出验证)→ L5(评估器门控)。任何生成后层中的失败都会触发带有增强约束的重试或回退到原始内容。
第1层:时序上下文验证
嵌入在智能体提示中的技术时间线
第2层:跨领域污染检测
确定性分类 + 词边界匹配
第3层:结构不变性强制
角色计数 + 要点计数验证
第4层:提示层内容接地
教育、认证、公司的不可变性规则
第5层:评估器智能体 QA 门控
独立LLM对抗性验证
带增强约束的重试
图1:五层纵深防御架构。每一层针对一种不同的幻觉模式。第5层验证失败会触发重试周期,将污染警告和结构约束注入提示。经过3次失败重试后,系统回退到将最佳LLM输出与原始内容合并。
### 3.1 第1层:时序上下文验证
时序上下文层通过构建每份简历的时间线并将其作为约束嵌入到每个智能体提示中,防止时代错置的技术注入(H1)。
给定一份简历 \(R\),包含经验条目 \(E = \{e_1, \ldots, e_n\}\),每个条目有开始/结束日期,我们构建一个时序上下文 \(\text{TC}(R)\),包含职业跨度、从要点扫描中提取的技术到年份范围映射,以及当前年份。我们维护一个技术发布日期的手选映射(例如,LangChain → 2022,Vertex AI → 2021),这些映射约束哪些技术可以出现在哪些角色中。完整的时间线构建算法和发布日期间表见附录A (https://arxiv.org/html/2607.01457#A1)。
时序上下文被序列化并注入到每个智能体提示中,指示LLM验证每个角色时间段内技术的存在性。
### 3.2 第2层:跨领域污染检测
污染检测层通过一个完全确定性、无LLM的机制解决跨领域渗透(H2)。最初基于LLM的方法——让模型验证自身输出中是否存在外来云服务——虽然有效,但每次调用增加了延迟和成本。由于云服务名称构成一个有限、可枚举的集合,确定性正则表达式方法既足够又更高效。
我们构建了一个包含四个生态系统(AWS: 76, GCP: 53, Azure: 64, 本地: 64)中257个云服务的分类 \(\mathcal{T}\),以及一组69个与提供商无关的技术。每个生态系统条目包括显式提供商关键词(例如“aws”)和服务名称(例如“sagemaker”)。检测使用两级词边界正则表达式匹配:第一级通过单个显式关键词匹配归因;第二级需要 \(\geq 2\) 个服务名称匹配以处理歧义(例如“lambda”作为AWS Lambda与Python关键字的区别)。完整检测算法和歧义解决见附录C (https://arxiv.org/html/2607.01457#A3)。
关键设计决策:我们比较每个角色优化**前后**的云签名,仅标记**新引入的**提供商:
\[\text{Contaminated}(e_i) = \text{Clouds}(e_i^{\text{updated}}) \setminus \text{Clouds}(e_i^{\text{original}}) \neq \emptyset \tag{1}\]
当检测到污染时,该角色的职责回退到原始内容,将污染警告注入重试提示,并使用增强约束重新尝试优化。
### 3.3 第3层:结构不变性强制
结构突变(H3)通过带有容忍度感知验证的语义单元前后计数来处理。
在优化之前,我们记录结构签名 \(\text{Sig}(R) = (|E|, \{|b_i|\})\),即经验条目数量和每个条目的要点计数。优化之后,我们验证 \(|E'| \geq |E|\) 且每个条目的 \(|b_i'| \geq |b_i| - 1\),以容纳轻微重组同时防止显著内容丢失。当验证失败时,重试提示包含显式结构目标。经过3次失败尝试后,确定性后备合并确保保留所有原始内容(附录D (https://arxiv.org/html/2607.01457#A4))。
### 3.4 第4层:提示层内容接地
内容捏造(H4)通过嵌入在每个智能体提示中的显式不可变性声明来解决。虽然在更高温度和较弱模型上(实验2–3),单独使用提示层约束不足,但它们作为强大的第一道防线,显著减少了后续层必须捕获的违规频率。
接地约束分为四类:
1. 1.**内容保留**:“为每个条目保留精确的要点数量。不要减少或压缩。”相似文章
基于迭代语言规划:参数化世界模型如何减少LLM代理中的幻觉传播
本文介绍了基于迭代语言规划(GILP),一种将小型参数化世界模型与基于LLM的推理相结合的方法,以减少LLM代理中的幻觉传播。实验表明,在图结构规划基准上,GILP将幻觉状态率从0.176降低到0.035,并将任务成功率从0.668提高到0.838。
超越文档基础:代码、工具输出和文档上的跨度级幻觉检测
本文介绍了一个统一的基准,用于RAG系统中的跨度级幻觉检测,该基准超越了自然语言,扩展到代码、工具输出和结构化文档,并展示了一个微调的Qwen3.5-2B检测器,该检测器在这些新领域上优于现有方法,同时在标准NLP基准上保持竞争力。
LLMs为何在结构化知识上产生幻觉:对线性化表示推理的机制分析
本文对LLMs在推理线性化结构化知识时产生幻觉的原因进行了机制分析,发现幻觉源于系统的内部动态,例如对捷径线索的关注以及前馈层中语义基础的失败,而非随机噪声。
SafeLLM:在安全关键场景中,提取作为重写的抗幻觉替代方案
本文提出SafeLLM,一种基于提取的方法,用于从安全关键文档中检索信息,表明行号选择在减少幻觉的同时保持高召回率方面优于基于重写的RAG方法。
智慧在于知道何时沉默:通过注意力转移实现无幻觉的大语言模型遗忘
本论文引入注意力转移(Attention-Shifting, AS)框架,用于大语言模型的选择性机器遗忘,在有效移除敏感信息与防止幻觉和保持模型性能之间取得平衡。该方法采用重要性感知的注意力抑制和保留增强机制,在标准基准上相比现有遗忘方法实现了高达15%的准确度保持率提升。