causal-analysis

标签

Cards List
#causal-analysis

可观测模式并非解释:隐式推理模型的因果几何分析

arXiv cs.CL · 2026-06-12 缓存

本文分析了隐式推理模型(LRM),并论证隐状态中的可观测模式并非推理的因果解释;它倡导在可解释性研究中采用匹配对照和因果测试。

0 人收藏 0 人点赞
#causal-analysis

ORCA:面向优化的根本原因分析的端到端交互式副驾驶

arXiv cs.AI · 2026-05-27 缓存

ORCA 是一款端到端因果分析的副驾驶,利用代理引导用户完成包括因果发现、效应估计和根本原因分析在内的工作流,并生成结构化报告。

0 人收藏 0 人点赞
#causal-analysis

从相关性到因果性:Transformer语言模型中特征分析的五阶段方法论

arXiv cs.CL · 2026-05-22 缓存

本文提出了一种用于Transformer语言模型中因果特征分析的五阶段方法论,并在GPT-2 small上针对IOI任务进行了演示。研究发现特征具有特定的因果性但并非必要,并揭示了检测鲁棒性与因果鲁棒性之间的差距。

0 人收藏 0 人点赞
#causal-analysis

诊断不等于补救:语言协同适应解释LLM流水线中的修补风险

arXiv cs.CL · 2026-05-22 缓存

本文识别了多模块LLM代理中的'诊断悖论':对于失败因果性责任最大的模块(路由模块)并非最佳干预点,修补该模块反而可能损害性能。作者提出'语言契约'假说,并在三个代理系列中展示了实证证据。

0 人收藏 0 人点赞
#causal-analysis

评判电路

arXiv cs.CL · 2026-05-18 缓存

本文研究了LLM-as-a-judge的内部机制,发现模型在中期到后期的多层感知机(MLP)中共享一个稀疏的潜在评估器子图,该子图处理抽象评判,而格式特定的终端分支将评判映射到输出令牌,揭示了格式导致的不一致性的原因。

0 人收藏 0 人点赞
#causal-analysis

幻觉作为轨迹承诺:Transformer生成中非对称吸引子动力学的因果证据

arXiv cs.CL · 2026-04-20 缓存

本文提供因果证据表明自回归语言模型中的幻觉源于由非对称吸引子动力学驱动的早期轨迹承诺。通过在Qwen2.5-1.5B上进行同提示分叉和激活补丁实验,证明幻觉轨迹在首个token处分叉,并在模型各层间展现强烈的因果非对称性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈