Context Is Not Control：面向LLM的源边界评估

Reddit r/LocalLLaMA 2026/05/13 20:03 论文

llm-evaluation source-boundary controlled-text evidence-use research-paper open-source

摘要

一篇介绍《Context Is Not Control》的论文，该基准评估LLM在处理受控文本中介证据时的源边界失效问题。附带开放权重模型和前沿API模型的复现包。

我发布了一篇短论文/评估报告，题为《Context Is Not Control》。核心思想很简单：LLM不仅会因为缺乏上下文而失败，也会在错误地将某些上下文视为控制性证据时失败。检索到的文档、先前的消息、用户框架、虚假权威声明、过时的策略或注入的指令——这些都可以进入上下文窗口，但并非上下文中的所有内容都应被允许主导答案。这种区分是一个源边界问题。本文关注的是模型在同时看到多段文本时，必须保持以下区别： * 证据 * 用户框架 * 引用材料 * 源文本 * 类指令污染 * 无根据的主张 * 看似权威但无效的上下文因此，问题从“模型是否有足够的上下文？”转变为“模型是否正确识别了哪些上下文可作为证据被采纳？”我认为这对本地/开放模型的评估尤其重要，因为这是一种可以在多种上下文格式下测试的失败模式。它也不依赖于前沿模型的访问权限。本文并非声称要解决幻觉问题，而是提出一个更窄的论点：许多幻觉/合规/错误归因行为可以重新定义为在上下文压力下未能保持源边界。欢迎批评。我尤其感兴趣的是这个框架在哪些地方失效。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 20:19

rjsabouhi/context-is-not-control

来源：https://github.com/rjsabouhi/context-is-not-control

语境并非控制

DOI (https://doi.org/10.5281/zenodo.20126173) 许可协议：CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/)

本仓库包含公开工作手稿及清理后的复制工件，供以下研究使用：

语境并非控制：受控文本中介证据使用中的源边界失败

复制包

包含两个清理后的精简版包：

context_is_not_control_open_weight_replication_package_v0_2_LITE_no_raw_or_heavy_outputs.zip
context_is_not_control_frontier_api_replication_package_v0_2_LITE_no_raw_outputs.zip

包含原始/重型模型输出文件的完整归档版本已另行保存。

状态

公开工作手稿 / 预印本草稿。结果及工件组织可能在后续版本中更新。

Context Is Not Control：面向LLM的源边界评估

rjsabouhi/context-is-not-control

语境并非控制

目录

复制包

状态

相似文章

衡量开源权重 LLM 中的评估上下文发散：一种配对提示协议及对对齐管线特定异质性的初步证据

上下文-参数冲突的三种机制：预测框架与实证验证

为何重试会失败：LLM 智能体流水线中的上下文污染

@hbouammar：也许长上下文推理别再靠模型自己写递归控制代码了。我们开源了 λ-RLM……

TRIAGE：在资源约束下评估大语言模型的前瞻性元认知控制

提交意见反馈