ReasoningLens:大型推理模型的层次化可视化与诊断审计
摘要
ReasoningLens 是一个开源框架,为大型推理模型中的复杂推理链提供层次化可视化与诊断审计,支持结构化分析和错误检测。
查看缓存全文
缓存时间: 2026/06/30 03:33
论文页面 - ReasoningLens:大型推理模型的分层可视化与诊断审核
来源:https://huggingface.co/papers/2606.23404
摘要
ReasoningLens 是一个开源框架,为大型推理模型中的复杂推理链提供分层可视化和诊断审核功能,通过交互式层次结构和自动化审核实现结构化分析与错误检测。
大型推理模型的出现带来了异常长的思维链轨迹(https://huggingface.co/papers?q=Chain-of-Thought%20traces),造成了透明度负担,关键逻辑常常被淹没在大篇幅的程序性文本中。为解决这一问题,我们提出了 ReasoningLens,这是一个专为复杂推理链的分层可视化(https://huggingface.co/papers?q=hierarchical%20visualization)与诊断审核(https://huggingface.co/papers?q=diagnostic%20auditing)设计的开源框架。ReasoningLens 通过以下方式应对信息尸检(https://huggingface.co/papers?q=information%20necropsy):(1) 将轨迹结构化为交互式层次,使高层策略与底层执行分离;(2) 利用智能体审核器(https://huggingface.co/papers?q=agentic%20auditor)进行自动错误检测和工具增强验证(https://huggingface.co/papers?q=tool-augmented%20verification);(3) 合成系统性推理画像(https://huggingface.co/papers?q=systemic%20reasoning%20profiles)以揭示模型特有的盲点。通过将非结构化的文本墙转化为可操作的洞察,ReasoningLens 为解释、调试和优化下一代以推理为中心的 AI 提供了模块化基础。
查看 arXiv 页面(https://arxiv.org/abs/2606.23404)查看 PDF(https://arxiv.org/pdf/2606.23404)GitHub(https://github.com/icip-cas/ReasoningLens)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.23404)
引用本文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.23404 即可从此页面链接。
引用本文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.23404 即可从此页面链接。
引用本文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.23404 即可从此页面链接。
包含本文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
大型学习模型中增强且高效的推理
本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。
解码大型推理模型中的批判机制
本文研究大型推理模型如何在内部检测并纠正自身错误,识别出一个高度可解释的批判向量,该向量无需额外训练即可增强错误检测能力,并提升测试时扩展性能。
ReasoningFlow: 用于理解LLM推理轨迹的篇章结构
介绍 ReasoningFlow,一个将大语言模型推理轨迹的篇章结构捕获为有向无环图的框架,从而能够细粒度分析推理行为(如自我反思和回溯)。基于对数千条轨迹的手动和自动标注,揭示了模型之间的结构相似性,并且大多数错误步骤并不贡献于最终答案。
指令层级失效之处:诊断与修复推理语言模型中的故障
本文引入了一个白盒诊断框架,将推理语言模型中的指令层级故障定位为识别、冲突解决和响应实现三个阶段。该框架评估了多个模型,并提出了两种无需训练的自我监控机制,可将违规率降低81%–99%。
大型语言模型中的推理源于受限推理流形
本文将大语言模型中的推理视为一种内在的动力学过程,发现推理时的表征会自组织成低维流形。文章提出了一种基于内部动力学的无标签诊断方法,以评估推理质量,表明有效的推理受到几何和信息约束的支配。