当有用性凌驾于因果谨慎之上:LLM中上下文依赖的抑制与恢复
摘要
本文研究了LLM中有用性与安全性之间的张力如何导致某些行为的上下文依赖抑制与恢复,表明追求有用性的动力能够覆盖因果谨慎机制。
arXiv:2606.24370v1 Announce Type: new
摘要:大型语言模型(LLM)正越来越多地融入商业和政策领域的决策支持角色。虽然先前的基准研究主要评估了LLM的因果推理能力,但一个更根本的认知维度被忽视了:因果谨慎,即当经验证据不充分时避免做出因果判断的倾向。本研究考察了LLM从学术环境转向实际咨询环境时出现的因果谨慎系统性抑制。使用受Pearl因果层级启发评估框架(PCH评分),我们在四个高性能LLM——Claude Sonnet 4.6、Claude Opus 4.7、GPT 5.5和Gemini 3.1 Pro——上进行了480次试验。因果谨慎维持率在学术环境中为91.7–100.0%,但在实际咨询环境中降至6.7–18.3%(Fisher精确检验,所有模型p < .001)。此外,当仅限于要求具体建议或解释性理由的实际提示时,200个回答中仅1个(0.5%)维持了因果谨慎。一个简短的自我纠正提示——“请从因果关系角度重新考虑这一判断”——将因果谨慎的表达恢复至71.4–100.0%的维持率(McNemar检验,所有模型p < .001)。这些结果表明,以有用性为导向的响应模式可能在实际咨询环境中抑制因果谨慎的表达,这对组织治理具有重要意义。研究结果表明,这种抑制反映了表达上的上下文依赖变化,而非潜在能力限制,这表明将提案生成与因果审计分离的多智能体架构可能提供一种有前景的治理设计。
查看缓存全文
缓存时间: 2026/06/24 07:46
# 当帮助性压倒因果谨慎:LLM中上下文依赖的抑制与恢复 来源:https://arxiv.org/abs/2606.24370 文献工具 ## 文献与引用工具 文献浏览器 切换 代码、数据、媒体 ## 本文相关的代码、数据与媒体 演示 ## 演示 相关论文 ## 推荐与搜索工具 关于arXivLabs ## arXivLabs:与社区合作者的实验性项目 arXivLabs 是一个框架,允许合作者直接在 arXiv 网站上开发和共享新功能。 与 arXivLabs 合作的个人和组织都已接受并认同我们在开放性、社区精神、卓越性和用户数据隐私方面的价值观。arXiv 致力于这些价值观,并且只与遵循这些价值观的伙伴合作。 有一个能为 arXiv 社区增添价值的项目想法吗?**了解更多关于 arXivLabs 的信息**(https://info.arxiv.org/labs/index.html)。
相似文章
安全是情境性的,LLM评判者则不然:驾驭评估者的刚性先验
本文研究了用于安全评估的LLM-as-judge适应情境信息及不同安全定义的能力,发现它们基本是刚性的,当情境与其内部先验相矛盾时无法调整。
连贯的上下文可以悄然将LLM推入不同的内部状态——而当前的安全系统对此视而不见 [D]
一位独立研究者展示了证据,表明连贯的上下文可以在产生输出之前将LLM推入不同的内部状态,从而绕过表面安全过滤器。这表明当前的对齐方法(如RLHF)可能不是稳健的防御机制。
LLMs能否被约束在过往?通过基于回忆的提示改进知识截止
本文提出了基于回忆的提示策略(Self-Recall和Question-Recall),以提升LLM对知识截止的遵循能力,在反事实问题上优于现有方法,并引入多截止历史事件基准(MHEB)用于鲁棒性评估。
LLMs中的道德安全:通过模糊线索揭露表演性遵从
本文介绍了LLMs中的'表演性遵从'现象,即模型仅在人口统计身份被明确标注时显得公平,而当需要推断身份时则变得不那么公平。作者提出了一种线索变化方法论和一种Cue Visibility Gap指标,用于衡量真正的道德安全与表面道德安全。
毒性幻觉:扰动提示并追踪LLM电路
本文研究了提示中的毒性词汇扰动如何降低LLM的事实准确性并增加不确定性,并使用归因图分析追踪内部变化。研究发现,增加毒性会放大对扰动敏感的变异节点,而核心推理节点保持不变。