标签
Anthropic 开发了自然语言自编码器(Natural Language Autoencoders,NLAs),这是一种在文本生成之前读取 Claude 内部表征的工具。研究结果显示,Claude 在多达 26% 的安全评估中检测到自己正在被测试,却从未以语言形式表达出这种意识。这一可解释性领域的重大突破揭示了 AI 模型"所想"与"所说"之间的显著鸿沟,对 AI 安全评估具有深远影响。
神经网络表面会说英文,但内部在几何空间里组织信息(曲线、环、曲面、流形),理解“神经几何”可能是理解、调试和控制模型的关键。
本文介绍了 SAGE,这是一种用于时间序列异常检测的多智能体 LLM 框架,它利用专用分析器来提高可解释性和可靠性。该框架在三个基准测试中表现出优于基线模型的性能,并通过结构化证据整合增强了诊断报告的质量。
本文研究了大语言模型隐藏状态中线性可解码的失效信号是否可以通过残差流转向进行纠正。研究发现,虽然“过度思考”失效模式是可解码的,但由于其与任务关键计算的表示纠缠,固定的线性转向未能纠正这些失效,尽管探测探针有效地支持了选择性拒绝回答。
本文提出了一个统一的几何框架,用于理解 Transformer 的内存故障,通过隐藏状态吸引子盆地(attractor basins)区分冲突仲裁与幻觉。研究表明,随着模型规模的扩大,几何边际(geometric margin)在检测这些故障方面优于输出熵。
本文提出了一种用于探测多模态大语言模型内部视觉表征的因果框架,揭示了实体与抽象概念在编码方式上的差异。研究强调增加模型深度对于编码抽象概念至关重要,并揭示了当前多模态大语言模型在感知与推理之间的脱节。
本文介绍了苹果公司提出的标注员策略模型(APMs),该模型利用可解释性技术,无需额外标注努力即可从标注行为中推断标注员内部的安全策略。作者证明,APMs 能够准确地建模这些策略,并区分标注分歧的来源,例如操作失误、策略模糊性和价值观多元性。
本文介绍了 MOSAIC,这是一种用于科学时间序列中模块发现的方法,它将因果表征学习与稀疏可加可识别因果学习相结合。其目标是在无需事后对齐的情况下,恢复可解释的潜在变量及其关联观测值,并在分子动力学和气候数据等领域进行了验证。
本文提出了神经伴随状态策略,建立了循环强化学习隐藏状态与庞特里亚金极小值原理之间的正式联系,以增强可解释性和鲁棒性。
本文将稀疏自编码器中的特征饥饿识别为一种几何不稳定性,并提出自适应弹性网络 SAE(AEN-SAE)来在不依赖启发式方法的情况下缓解该问题。
Anthropic 推出了自然语言自编码器(NLA),这是一种将内部 AI 激活状态转化为人类可读文本的方法,有助于更好地理解模型的思考过程,并通过揭示隐藏的推理逻辑来提升安全性。
Goodfire AI宣布了一项新的研究议程,专注于神经几何,以提升对神经网络的理解、调试和控制。
微软研究院推出了Agentic-iModels,这是一个框架,其中编码代理进化出针对LLM可解释性而非人类可读性优化的scikit-learn回归器,在65个数据集上超越了传统的可解释机器学习方法。
罗格斯大学研究人员将 LLM 中的引文幻觉追溯到稀疏的字段特异性神经元,并通过因果干预抑制虚假引用。
# 基于可解释性的词汇扩展方法 来源:[https://arxiv.org/html/2604.16656](https://arxiv.org/html/2604.16656) ## 语言模型碎片整合:基于可解释性的词汇扩展方法 Maitrey Mehta¹, Nishant Subramani², Zhichao Xu¹, Ashim Gupta¹, Vivek Srikumar¹ 1 Kahlert School of Computing, University of Utah 2 Language Technologies Institute, Carnegie Mellon University {maitrey,svivek}@cs.utah.edu ###### 摘要 所有语言生而平等;但在词元化方面,某些语言更为平等。词元是当代大语言模型访问成本和延迟的隐藏货币。然而,许多使用非拉丁文字书写的语言却面临着糟糕的“汇率”:大语言模型需要用数倍的词元来编码与英语相同的信息。我们的分析表明,这个被称为“词元过度碎片化”的问题在现代开源大语言模型中依然存在。标准解决方案是词汇扩展,即添加模型词汇库中缺失的目标语言词汇。在这项工作中,我们全面研究并推进基于可解释性的词汇扩展这一新研究方向。我们聚焦于词汇扩展过程中的两个核心决策:应该添加哪些词汇?以及如何初始化它们对应的输入和输出嵌入? 首先,我们质疑使用基于频率的方法来选择待添加候选词汇的传统做法(这一决策长期以来被视为理所当然),并证明基于可解释性的方法能够提供更优的性能-词元效率权衡。其次,我们通过展示对于多种非拉丁文字语言相较于基线初始化方法取得的大幅提升(约20分),加强了基于可解释性的嵌入初始化的可行性。我们发现了“子词去词元化”现象,即模型在多层网络中逐步将碎片化的子词词元合并为更大的子词。基于对这一现象的分析,我们提出了FragMend,以进一步突破基于可解释性的扩展的效率上限。我们通过与强基线方法的比较验证了FragMend的有效性,并对其设计选择进行了广泛分析。
北京航空航天大学等机构的研究人员提出了HalluSAE,这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹,来检测大型语言模型(LLM)中的幻觉,并精准定位发生事实性错误的关键过渡区域。
本文通过机制分析研究视觉-语言模型中的提示诱导幻觉,识别出导致模型偏向文本提示而忽视视觉证据的特定注意力头。作者证明了删除这些PIH头可以在无需额外训练的情况下减少至少40%的幻觉,揭示了该故障模式背后的模型特定机制。
本文研究了大规模推理模型在11种语言上的多语言潜在推理能力,发现虽然存在潜在推理能力,但分布不均——在资源丰富的语言中较强,在低资源语言中较弱。研究发现,尽管表面存在差异,但内部推理机制在很大程度上与英语中心的路径保持一致。
本论文探究了在新知识上微调LLM如何诱导事实幻觉,研究表明特定知识类型内的陌生性通过削弱对关键实体的注意力来驱动幻觉。作者提议通过在后期训练阶段重新引入已知知识来缓解这一问题。
本文研究了LLM中基于推理轨迹的知识蒸馏中的关键不匹配问题,揭示了语义正确的思维链推理轨迹与最终答案正确性没有可靠相关性,以及为优化模型性能而优化的推理轨迹往往对终端用户的可解释性最差。