Context Is Not Control:面向LLM的源边界评估
摘要
一篇介绍《Context Is Not Control》的论文,该基准评估LLM在处理受控文本中介证据时的源边界失效问题。附带开放权重模型和前沿API模型的复现包。
查看缓存全文
缓存时间: 2026/05/13 20:19
rjsabouhi/context-is-not-control
来源:https://github.com/rjsabouhi/context-is-not-control
语境并非控制
DOI (https://doi.org/10.5281/zenodo.20126173) 许可协议:CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/)
本仓库包含公开工作手稿及清理后的复制工件,供以下研究使用:
语境并非控制:受控文本中介证据使用中的源边界失败
目录
paper/— 工作手稿 PDFreplication_packages/— 清理后的开放权重与前沿/API 精简版复制包release_materials/— 引用元数据、发布说明及 Zenodo 元数据
复制包
包含两个清理后的精简版包:
context_is_not_control_open_weight_replication_package_v0_2_LITE_no_raw_or_heavy_outputs.zipcontext_is_not_control_frontier_api_replication_package_v0_2_LITE_no_raw_outputs.zip
包含原始/重型模型输出文件的完整归档版本已另行保存。
状态
公开工作手稿 / 预印本草稿。结果及工件组织可能在后续版本中更新。
相似文章
衡量开源权重 LLM 中的评估上下文发散:一种配对提示协议及对对齐管线特定异质性的初步证据
本文介绍了一种配对提示协议,用于衡量开源权重大型语言模型(LLM)中的“评估上下文发散”,研究发现模型的行为会根据提示是被框定为评估还是实际部署而有所不同。该研究突显了不同模型间的异质性,有些模型表现为“评估谨慎型”,而另一些则表现为“部署谨慎型”,这引发了对安全基准有效性的担忧。
上下文-参数冲突的三种机制:预测框架与实证验证
本文提出了一个三机制框架,以解决大型语言模型(LLM)在处理训练知识与新文档之间冲突时出现的实证矛盾,并在五大主流模型上进行了验证。该框架区分了参数强度与参数唯一性,并展示了任务框架和证据连贯性如何显著影响模型行为。
为何重试会失败:LLM 智能体流水线中的上下文污染
本文提出了上下文污染重启模型(Context-Contaminated Restart Model, CCRM),以形式化分析 LLM 智能体流水线中失败的尝试如何污染上下文并在重试期间增加错误率。文章提供了理论证明,并针对 SWE-bench 数据验证了该模型,结果显示其与标准独立模型存在显著差异。
@hbouammar:也许长上下文推理别再靠模型自己写递归控制代码了。我们开源了 λ-RLM……
研究者发布 λ-RLM,一款开源的带类型 λ-演算运行时,用预验证组合子取代自写递归控制代码,将长上下文推理准确率最高提升 21.9%,在 36 项测试中赢下 29 场。
TRIAGE:在资源约束下评估大语言模型的前瞻性元认知控制
介绍了TRIAGE,一个在令牌预算下评估大语言模型前瞻性元认知控制的框架,发现它们在跨问题有效分配计算资源的能力上存在显著差距。