我花了40%的开发时间阻止LLM引证出错,总结出了7种失效模式

Reddit r/artificial 工具

摘要

一位为德国律所构建AI法律助手的开发者,详细列出了7种具体的LLM引证失效模式,以及为满足严格法律引证标准而采用的提示工程修复方案。

我为一家德国律所打造AI研究助手,检索管道只占了总开发时间的30%,剩下70%都在跟LLM搏斗,让它把引证写对。律师对引证有极其苛刻的标准:你不能说“根据法律指南”,而得写成“依《通用数据保护条例》第32条第1款a项,并经欧盟法院C-300/21号判决解释”。如果系统做不到这一点,就毫无用处——律师不会信任无法核验的答案。下面是我遇到的所有引证失效模式及应对方法: **失效1:模糊类别引证** LLM会写“laut professioneller Fachliteratur”(根据专业文献),而不是点名具体文件,实质是在引用元数据标签而非真实来源。 **修复**:在提示里明确写入“禁止将类别名称改写为来源引用”,并给出反面示例。 **失效2:内部类别标签泄露** LLM会在行文中写“(Kategorie: High court decision)”,这对终端用户毫无意义。 **修复**:提示里加“禁止用(Kategorie: ...)做行内引证”,必须改用真实文档标题或法院名称。 **失效3:权威层级错误** 把高等法院的结论归给下级法院,或反之。法律工作中法院级别至关重要,出错非常危险。 **修复**:提示要求LLM先核对文档所在类别区块,再决定归属,并附正确归因示例。 **失效4:合并冲突观点** 当上下级法院对同一法律问题意见相左时,LLM会把它们合成一个立场,通常偏向措辞更清晰而非权威更高的那份。 **修复**:强制要求分别列出两种立场,并注明各自来源及权威层级。 **失效5:虚假缺席声明** LLM会自信地断言“文档中未提及X”,而实际上相关信息藏在晦涩的法条语言里。 **修复**:提示写明“未经彻底核验不得宣称信息缺失”,建议改为“现有摘录可能未涵盖全部细节”。 **失效6:过度强调语气** LLM喜欢在法律结论前加“ohne jeden Zweifel”(毫无疑问)、“ganz klar”(非常明确)等词,律师认为这极不专业,因为法律分析罕有无争议。 **修复**:语气指令要求客观、克制,让来源自己说话。
查看原文

相似文章

为什么大多数法律 AI 演示在生产环境中失败

Reddit r/ArtificialInteligence

本文详细阐述了法律 AI 系统在生产环境中面临的三种常见故障模式:将所有来源视为同等可信、无法处理相互矛盾的法律观点,以及缺乏特定律所的内部知识。文章提出了诸如权威性加权、分歧检测以及注释层等解决方案,以建立系统的可信度与实用性。

引用布莱恩·坎特里尔

Simon Willison's Blog

布莱恩·坎特里尔批评LLM缺乏人类懒惰带来的优化约束,认为LLM会不必要地使系统复杂化而非改进,并强调人类时间限制推动了高效抽象的发展。

LLMs 在委托任务中破坏您的文档

arXiv cs.CL

DELEGATE-52 是一个新的基准测试,揭示了包括 GPT-5.4 和 Claude 4.6 Opus 等前沿模型在内的当前 LLMs,在跨越 52 个专业领域的长期委托工作流中平均损坏 25% 的文档内容。该研究表明 LLMs 会引入稀疏但严重的错误,这些错误在交互中不断复合,引发了人们对其在委托工作范式中可靠性的担忧。