attribution-graph

#attribution-graph

毒性幻觉：扰动提示并追踪LLM电路

arXiv cs.CL ↗ · 3天前缓存

本文研究了提示中的毒性词汇扰动如何降低LLM的事实准确性并增加不确定性，并使用归因图分析追踪内部变化。研究发现，增加毒性会放大对扰动敏感的变异节点，而核心推理节点保持不变。

0 人收藏 0 人点赞

#attribution-graph

arXiv cs.CL ↗ · 2026-05-15 缓存

本文探讨了检索增强生成（RAG）系统即使在获取到正确证据的情况下仍然失败的原因。通过电路追踪和归因图，作者发现正确的预测展现出更深的推理路径和更分散的证据流，而失败则表现为浅层、碎片化的模式。他们提出了一个基于图的错误检测框架和有针对性的干预措施，以提高RAG的可靠性。

0 人收藏 0 人点赞