我花了40%的开发时间阻止LLM引证出错,总结出了7种失效模式
摘要
一位为德国律所构建AI法律助手的开发者,详细列出了7种具体的LLM引证失效模式,以及为满足严格法律引证标准而采用的提示工程修复方案。
我为一家德国律所打造AI研究助手,检索管道只占了总开发时间的30%,剩下70%都在跟LLM搏斗,让它把引证写对。律师对引证有极其苛刻的标准:你不能说“根据法律指南”,而得写成“依《通用数据保护条例》第32条第1款a项,并经欧盟法院C-300/21号判决解释”。如果系统做不到这一点,就毫无用处——律师不会信任无法核验的答案。下面是我遇到的所有引证失效模式及应对方法:
**失效1:模糊类别引证**
LLM会写“laut professioneller Fachliteratur”(根据专业文献),而不是点名具体文件,实质是在引用元数据标签而非真实来源。
**修复**:在提示里明确写入“禁止将类别名称改写为来源引用”,并给出反面示例。
**失效2:内部类别标签泄露**
LLM会在行文中写“(Kategorie: High court decision)”,这对终端用户毫无意义。
**修复**:提示里加“禁止用(Kategorie: ...)做行内引证”,必须改用真实文档标题或法院名称。
**失效3:权威层级错误**
把高等法院的结论归给下级法院,或反之。法律工作中法院级别至关重要,出错非常危险。
**修复**:提示要求LLM先核对文档所在类别区块,再决定归属,并附正确归因示例。
**失效4:合并冲突观点**
当上下级法院对同一法律问题意见相左时,LLM会把它们合成一个立场,通常偏向措辞更清晰而非权威更高的那份。
**修复**:强制要求分别列出两种立场,并注明各自来源及权威层级。
**失效5:虚假缺席声明**
LLM会自信地断言“文档中未提及X”,而实际上相关信息藏在晦涩的法条语言里。
**修复**:提示写明“未经彻底核验不得宣称信息缺失”,建议改为“现有摘录可能未涵盖全部细节”。
**失效6:过度强调语气**
LLM喜欢在法律结论前加“ohne jeden Zweifel”(毫无疑问)、“ganz klar”(非常明确)等词,律师认为这极不专业,因为法律分析罕有无争议。
**修复**:语气指令要求客观、克制,让来源自己说话。
相似文章
LLM如何决定引用哪些页面——以及如何优化
本文阐述了 ChatGPT 和 Perplexity 等模型如何选择引用来源,并指出结构化标记(JSON-LD)能够通过提升信息提取效率,将引用率从 16% 大幅跃升至 54%。
为什么大多数法律 AI 演示在生产环境中失败
本文详细阐述了法律 AI 系统在生产环境中面临的三种常见故障模式:将所有来源视为同等可信、无法处理相互矛盾的法律观点,以及缺乏特定律所的内部知识。文章提出了诸如权威性加权、分歧检测以及注释层等解决方案,以建立系统的可信度与实用性。
引用布莱恩·坎特里尔
布莱恩·坎特里尔批评LLM缺乏人类懒惰带来的优化约束,认为LLM会不必要地使系统复杂化而非改进,并强调人类时间限制推动了高效抽象的发展。
别再让大语言模型编辑你的 .bib 文件 [D]
本文批评了依赖大语言模型生成参考文献条目的做法,指出了学术论文中幻觉引用和作者列表错误的问题。
LLMs 在委托任务中破坏您的文档
DELEGATE-52 是一个新的基准测试,揭示了包括 GPT-5.4 和 Claude 4.6 Opus 等前沿模型在内的当前 LLMs,在跨越 52 个专业领域的长期委托工作流中平均损坏 25% 的文档内容。该研究表明 LLMs 会引入稀疏但严重的错误,这些错误在交互中不断复合,引发了人们对其在委托工作范式中可靠性的担忧。