LLMs 在委托任务中破坏您的文档

arXiv cs.CL 论文

摘要

DELEGATE-52 是一个新的基准测试,揭示了包括 GPT-5.4 和 Claude 4.6 Opus 等前沿模型在内的当前 LLMs,在跨越 52 个专业领域的长期委托工作流中平均损坏 25% 的文档内容。该研究表明 LLMs 会引入稀疏但严重的错误,这些错误在交互中不断复合,引发了人们对其在委托工作范式中可靠性的担忧。

arXiv:2604.15597v1 公告类型:新发布 摘要:大语言模型(LLMs)正准备颠覆知识工作,新的委托工作交互范式(如 vibe coding)应运而生。委托需要信任——即期望 LLM 将忠实执行任务,不会将错误引入文档中。我们引入 DELEGATE-52 来研究 AI 系统在委托工作流中的就绪程度。DELEGATE-52 模拟了跨越 52 个专业领域(如编码、晶体学和音乐符号)进行深入文档编辑的长期委托工作流。我们对 19 个 LLMs 的大规模实验表明,当前模型在委托过程中会损坏文档:即使是前沿模型(Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4)在长工作流结束时平均也会损坏 25% 的文档内容,其他模型的失败情况更为严重。额外的实验表明,代理工具的使用并不能改进 DELEGATE-52 上的性能,且文档大小、交互长度或分散文件的存在会加剧降解的严重程度。我们的分析表明,当前的 LLMs 是不可靠的委托方:它们引入稀疏但严重的错误,默默地损坏文档,在长期交互中不断复合。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:28

# 大语言模型在委托工作中会破坏您的文档
来源:https://arxiv.org/html/2604.15597
Philippe Laban Tobias Schnabel Jennifer Neville Microsoft Research \{plaban, tobias\.schnabel, jenneville\}@microsoft\.com

###### 摘要

大语言模型(LLMs)正准备颠覆知识工作,随着委托工作这一新型交互范式的出现(例如,vibe coding)。委托工作需要信任——即期望 LLM 能够忠实执行任务,而不向文档中引入错误。我们推出 DELEGATE-52 来研究 AI 系统在委托工作流中的准备情况。DELEGATE-52 模拟长期委托工作流,需要在 52 个专业领域(如编程、晶体学和音乐符号)中进行深度文档编辑。我们对 19 个 LLM 进行的大规模实验表明,当前模型在委托过程中会降低文档质量:即使是前沿模型(Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4)在长工作流结束时也会破坏平均 25% 的文档内容,其他模型失败更为严重。额外实验表明,agentic 工具使用不能改善 DELEGATE-52 上的性能,文档大小、交互长度或干扰文件的存在会加剧降解的严重程度。我们的分析表明,当前 LLM 是不可靠的委托者:它们会引入稀疏但严重的错误,以静默方式破坏文档,并随着长期交互而复合。

参见图1
图1:DELEGATE-52 基准中 LLM 如何在长工作流中破坏文档的示意性示例。当 LLM 编辑代表图形图表、织物图案或 3D 对象的文件时,它们会引入稀疏但严重的错误,这些错误会以静默方式破坏文档,并随着长期交互而复合。111DELEGATE-52 是一个纯文本基准,视觉渲染仅用于说明目的。

## 1 介绍

最近的 LLM 进展正在催生新的交互范式,例如委托工作(Shao 等,2025;Ulloa 等,2025),知识工作者在这种范式中监督 LLM 代表他们完成任务(例如,"vibe coding")。关键是,委托工作的用户可能缺乏审查 LLM 所做更改的专业知识或时间,必须相信 LLM 不会引入未经检查的错误,例如幻觉或删除。

委托工作的可行性取决于 LLM 在执行任务和操纵领域文档时不引入错误的能力。我们通过模拟来研究当前 LLM 在各种专业中为委托工作做好准备的情况。

我们工作的第一个贡献是 DELEGATE-52,一个包含跨 52 个专业领域(包括编程、晶体学、族谱和音乐谱号)的 310 个工作环境的基准。每个环境由总长度约 15k 个 token 的真实文档,以及用户可能要求 LLM 执行的 5-10 个复杂编辑任务组成。这与过去专注于单一领域内的任务的工作(例如,代码编辑或文本编辑)有很大不同。

我们的第二个贡献是往返中继模拟方法,它使我们能够模拟长期委托交互并评估 LLM 性能,而无需注释或参考解决方案。具体来说,我们假设每个编辑任务都是可逆的,由前向指令及其逆向指令定义。按顺序应用两者形成往返翻译(backtranslation)round-trip,在完美模型下,会精确恢复原始文档。这让我们可以通过测量 round-trip 前后的文档相似度来评估性能。Round-trips 可以进一步按顺序组合,形成一个中继。往返翻译起源于机器翻译中的数据增强和评估技术,最近已适配用于通过链式可逆变换评估 LLM 一致性。我们重新利用该技术来研究长期委托交互。

我们的第三个贡献是在 DELEGATE-52 上对 19 个 LLM 进行的大规模模拟。我们的发现表明,当前 LLM 在编辑工作文档时会引入大量错误,前沿模型(Gemini 3.1 Pro、Claude 4.6 Opus 和 GPT 5.4)在 20 次委托交互中平均损失 25% 的文档内容,所有模型的平均降解为 50%。降解取决于领域:LLM 在编程领域(Python、Database)中表现更好,在自然语言和利基领域(例如,收入报表、音乐符号)中表现更差。我们将模型定义为在领域中"准备好"进行委托工作,如果在 20 次交互后达到 98% 或更高的得分。Python 是仅有的一个领域(在 52 个中),大多数模型都已准备好,突显了剩余的重大差距。

最后,有针对性的实验进一步细化了我们对当前 LLM 能力的理解。我们确认文档大小、交互长度和干扰上下文等已知因素会导致降解,但这些负面影响会随时间复合,这意味着短期模拟会低估其严重程度。我们还发现使用基本的 agentic 框架不能改善我们在 DELEGATE-52 上测试的 LLM 的性能,两次交互后的性能无法预测长期性能(20 次交互),验证了长期评估的重要性。我们公开发布 DELEGATE-52,作为监测 AI 委托工作准备情况和推动长期人类-AI 交互研究的工具。

## 2 DELEGATE-52 基准

参见图2
图2:往返翻译 round-trip 原语。

在 DELEGATE-52 中,我们模拟可能是知识工作者任务一部分的长工作流。工作流由种子文档以及通过一系列复杂编辑任务转换的其他内容组成,镜像委托工作的迭代性质。我们现在介绍使我们能够(i)自动执行评估和(ii)扩展工作流长度的框架。

### 2.1 无参考评估

图2 展示了由一对编辑任务组成的 round-trip 原语,受往返翻译启发。给定种子文档 s,我们可以定义一对前向和后向编辑指令(x→,x←),它们用自然语言描述种子文档及其逆的变换(σ,σ-1)。首先,LLM 对种子文档应用前向指令,生成变换的文档 t=σ(s)=LLM(s;x→)。其次,LLM 对变换后的文档应用后向指令,生成重建的文档 ŝ=σ-1(t)=LLM(t;x←)。每一步都作为独立的单轮会话进行。

为了测量重建质量,我们实现了领域特定的相似度函数 sim(si,sj)。完美模型会产生 sim(s,ŝ)=1,将评估简化为语义等价性,无需参考注释。为了使往返翻译与模型性能一致,模型需要真正尝试编辑指令,而不是走捷径;我们在附录 A 中验证了这一点。附录 B 讨论了该框架的其他属性、假设和限制。

##### 模拟长工作流。

由于每个 round-trip 都设计为返回到种子文档 s,round-trips 可以被链接成更长的工作流。我们从可用选项集中采样 N 对前向和后向指令 (x1→,x1←),...,(xN→,xN←),每个表示一个变换 σi(s)。我们通过按顺序应用 n 个 round-trip 编辑来模拟 n-中继:

ŝk=(σ1∘σ1-1∘⋯∘σn∘σn-1)(s),1≤n≤N。

我们的主要指标是 k 次交互后的重建得分(即 k/2 个 round-trips):

RS@k(s)=sim(s,ŝk/2)。

### 2.2 基准构建

我们选择了 52 个专业领域来模拟工作流(列在图3 中),代表跨越五个类别的多样化知识工作专业:科学与工程、代码与配置、创意与媒体、结构化记录和日常工作。纳入的关键标准是存在标准文档类型,该类型是文本的和未编码的(例如,.srt 用于字幕,.cif 用于晶体学)。领域选择的次要考虑因素列在附录 K.1 中。

参见图3
图3:DELEGATE-52 包括来自五个类别中 52 个专业领域的工作环境:科学与工程、代码与配置、创意与媒体、结构化记录和日常工作。

#### 2.2.1 工作环境

对于每个领域,我们构建了六个工作环境,包含种子文档、一组 5-10 个可能的编辑任务和干扰上下文。图4 中呈现了会计领域的示例环境,环境创建在附录 K 中有详细说明。

参见图4
图4:DELEGATE-52 中会计领域的示例工作环境。种子文档是非营利组织 Hack Club 的会计分类账。突出显示的编辑(Category Split)包括首先将种子文档 hack_club.ledger 按费用类别拆分为单独的文件(前向编辑任务),然后按时间顺序将其合并回一个文件(后向编辑任务)。

##### 种子文档。

种子文档是所有模拟的起点。种子文档是在线上找到的真实文档(无合成数据、范例或模板),范围从 2–5k token,111基于 GPT-4 tiktoken 编码器,并具有允许重新分发的许可证。次要要求列在附录 N 中。图1 中的模拟使用三个种子文档:Linux 内核架构图(图表)、12 轴斜纹菱形图案(织物)和 ActionBoy 棕榈树(3D 对象)。

##### 编辑任务。

编辑任务是定义可逆变换的前向和后向指令对。指令必须:(1)代表利益相关者对文档可能执行的现实工作任务,(2)需要超越扩展的上下文的深度、非平凡变换。换句话说,σ(s) 不能分解为 [s,σ'(s)](连接),因为这会使后向编辑平凡(裁剪)。每个编辑任务都用执行编辑所需的语义操作进行标记(例如,数值推理、分类、拆分)。图4 中的会计工作环境有 10 个编辑任务,包括需要按费用类别或报销接收人将分类账拆分为单独文件、将金额转换为欧元或将分类账格式化为 Beancount 格式的任务。附录 K.4 描述了编辑创建和标记过程。

##### 干扰上下文。

在现实工作设置中,检索或可用文档并不总是与手头的任务相关(即检索精度不完美)。为了模拟这一点,每个工作环境都包括干扰上下文:与主题相关但不妨碍任何编辑任务的文档。在图4 的会计示例中,干扰上下文包括科目表、组织支出报销政策和来自该组织的三份其他文档。干扰上下文范围从每个环境 8–12k token,默认包含在实验中以增强模拟现实性。干扰构建和非干扰验证在附录 K.7 中有详细说明。

#### 2.2.2 领域特定评估

参见图5
图5:顶部:DELEGATE-52 中的领域实现了一个解析函数,该函数将文本文档转换为结构化表示,然后由相似度函数用来对两个解析实例进行评分。底部:食谱领域的具体示例。

常见的文本相似度方法考虑低级重叠(例如,Levenshtein 比率)或通用嵌入空间中的语义距离。这些不能充分捕获细粒度的语义变化,因此我们为每个领域实现了自定义相似度函数,如图5 所示。

语义等价性分为两个步骤进行评估:解析和评估。解析函数将文档转换为结构化表示。在图5 中,食谱被解析为配料(名称、数量、单位)、步骤和提示。相似度函数然后比较两个解析的表示并输出 [0,1] 范围内的得分。在食谱领域,相似度是配料列表(40%)、步骤(40%)和提示(20%)的加权和。每个领域的组件组合和相对权重通过消融测试进行校准,以确保对内容丢失或破坏的比例敏感性(附录 K.2)。

这种灵活性允许对评分函数的各个组件进行领域适当的权衡。例如,配料中的小表面级变化(例如,200→800 克黄油)会严重影响总得分(如所需)。反之,领域特定的解析允许评分函数的鲁棒性:不影响语义的表面级变化(例如,200g 对 0.2kg 黄油,或重新排列配料列表的顺序)不会影响得分。

为 52 个领域实现鲁棒的语义等价性是我们方法的中心。在附录 C 中,我们表明通用相似度度量(包括 LLM-as-a-judge 与 GPT 5.4)无法捕获细微的语义差异,只与我们的基于解析的指标中等相关,最多只能捕获 25% 的方差。

#### 2.2.3 质量保证。

为确保实验有效性,我们在构建过程的每个阶段执行质量保证(附录 K),评估(1)解析鲁棒性、(2)评估敏感性、(3)编辑测试和(4)干扰相互

相似文章

LLM 排名并非阶梯:来自传递性基准图的实验结果 [D]

Reddit r/MachineLearning

作者介绍了 LLM Win,这是一个将大语言模型(LLM)基准测试结果可视化为有向图的工具,用于分析传递关系和排名逆转。实验结果表明,LLM 的排名更像是一个具有较高弱到强可达性的能力图,而非线性阶梯。