circuit-tracing

#circuit-tracing

LLMs 并非你所认为的黑箱

Hacker News Top ↗ · 2026-06-02 缓存

一篇总结 Anthropic 2025 年关于机制可解释性论文的文章，表明 LLM 并非黑箱，电路追踪可以揭示多步推理和人类可识别的概念。

0 人收藏 0 人点赞

#circuit-tracing

arXiv cs.CL ↗ · 2026-05-15 缓存

本文探讨了检索增强生成（RAG）系统即使在获取到正确证据的情况下仍然失败的原因。通过电路追踪和归因图，作者发现正确的预测展现出更深的推理路径和更分散的证据流，而失败则表现为浅层、碎片化的模式。他们提出了一个基于图的错误检测框架和有针对性的干预措施，以提高RAG的可靠性。

0 人收藏 0 人点赞