标签
本文分析了隐式推理模型(LRM),并论证隐状态中的可观测模式并非推理的因果解释;它倡导在可解释性研究中采用匹配对照和因果测试。
ORCA 是一款端到端因果分析的副驾驶,利用代理引导用户完成包括因果发现、效应估计和根本原因分析在内的工作流,并生成结构化报告。
本文提出了一种用于Transformer语言模型中因果特征分析的五阶段方法论,并在GPT-2 small上针对IOI任务进行了演示。研究发现特征具有特定的因果性但并非必要,并揭示了检测鲁棒性与因果鲁棒性之间的差距。
本文识别了多模块LLM代理中的'诊断悖论':对于失败因果性责任最大的模块(路由模块)并非最佳干预点,修补该模块反而可能损害性能。作者提出'语言契约'假说,并在三个代理系列中展示了实证证据。
本文研究了LLM-as-a-judge的内部机制,发现模型在中期到后期的多层感知机(MLP)中共享一个稀疏的潜在评估器子图,该子图处理抽象评判,而格式特定的终端分支将评判映射到输出令牌,揭示了格式导致的不一致性的原因。
本文提供因果证据表明自回归语言模型中的幻觉源于由非对称吸引子动力学驱动的早期轨迹承诺。通过在Qwen2.5-1.5B上进行同提示分叉和激活补丁实验,证明幻觉轨迹在首个token处分叉,并在模型各层间展现强烈的因果非对称性。