当有用性凌驾于因果谨慎之上：LLM中上下文依赖的抑制与恢复

arXiv cs.AI 2026/06/24 04:00 论文

llm safety helpfulness causal-caution context-dependent suppression recovery

摘要

本文研究了LLM中有用性与安全性之间的张力如何导致某些行为的上下文依赖抑制与恢复，表明追求有用性的动力能够覆盖因果谨慎机制。

arXiv:2606.24370v1 Announce Type: new 摘要：大型语言模型（LLM）正越来越多地融入商业和政策领域的决策支持角色。虽然先前的基准研究主要评估了LLM的因果推理能力，但一个更根本的认知维度被忽视了：因果谨慎，即当经验证据不充分时避免做出因果判断的倾向。本研究考察了LLM从学术环境转向实际咨询环境时出现的因果谨慎系统性抑制。使用受Pearl因果层级启发评估框架（PCH评分），我们在四个高性能LLM——Claude Sonnet 4.6、Claude Opus 4.7、GPT 5.5和Gemini 3.1 Pro——上进行了480次试验。因果谨慎维持率在学术环境中为91.7–100.0%，但在实际咨询环境中降至6.7–18.3%（Fisher精确检验，所有模型p < .001）。此外，当仅限于要求具体建议或解释性理由的实际提示时，200个回答中仅1个（0.5%）维持了因果谨慎。一个简短的自我纠正提示——“请从因果关系角度重新考虑这一判断”——将因果谨慎的表达恢复至71.4–100.0%的维持率（McNemar检验，所有模型p < .001）。这些结果表明，以有用性为导向的响应模式可能在实际咨询环境中抑制因果谨慎的表达，这对组织治理具有重要意义。研究结果表明，这种抑制反映了表达上的上下文依赖变化，而非潜在能力限制，这表明将提案生成与因果审计分离的多智能体架构可能提供一种有前景的治理设计。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:46

# 当帮助性压倒因果谨慎：LLM中上下文依赖的抑制与恢复
来源：https://arxiv.org/abs/2606.24370
文献工具

## 文献与引用工具

文献浏览器 切换

代码、数据、媒体

## 本文相关的代码、数据与媒体

演示

## 演示

相关论文

## 推荐与搜索工具

关于arXivLabs

## arXivLabs：与社区合作者的实验性项目

arXivLabs 是一个框架，允许合作者直接在 arXiv 网站上开发和共享新功能。

与 arXivLabs 合作的个人和组织都已接受并认同我们在开放性、社区精神、卓越性和用户数据隐私方面的价值观。arXiv 致力于这些价值观，并且只与遵循这些价值观的伙伴合作。

有一个能为 arXiv 社区增添价值的项目想法吗？**了解更多关于 arXivLabs 的信息**（https://info.arxiv.org/labs/index.html）。

当有用性凌驾于因果谨慎之上：LLM中上下文依赖的抑制与恢复

相似文章

安全是情境性的，LLM评判者则不然：驾驭评估者的刚性先验

连贯的上下文可以悄然将LLM推入不同的内部状态——而当前的安全系统对此视而不见 [D]

LLMs能否被约束在过往？通过基于回忆的提示改进知识截止

LLMs中的道德安全：通过模糊线索揭露表演性遵从

毒性幻觉：扰动提示并追踪LLM电路

提交意见反馈