如何分析探针的相对“强度”？[R]

Reddit r/MachineLearning 2026/06/17 20:29 新闻

摘要

作者询问如何分析神经网络中探针的相对“强度”，讨论了词汇量有限和模型容量等挑战，并以Google Gemini为例说明了失败情况。

这个问题与语言+模型（包括多模态）以及“电路”分析等主题相关。我认为在我的工作中（模型输出的事实性保证）可能会遇到类似的问题，所以我正在尝试了解当前的最新进展。我找到了这篇旧文章，其中试图推断，例如，基于Transformer的模型是否“知道”一个token属于哪个单词。即使在这个简单的例子中，我也注意到了一些有意义的问题（我在脚注1中详细说明，以免偏离我的问题）——而且我听说电路研究相当棘手。这篇文章声称训练了一个逻辑回归分类器。我好奇的是，如何在探针的能力和底层网络之间取得平衡？具体来说，我想知道：是否有理论基础可以将“你能学到什么”的探究具体化？（也许是在过拟合的可证明保证方面？或者是否有类似奈奎斯特的保证，基于语言语料库中模式的频率进行采样——即，我们能否说已经“看到了足够的数据”来知道网络在所有情况下都能可靠地完成某些事情？）现有的工作是否考虑了给示例标注“难度”的尝试？（也许是通过集成一些模型的训练并查看其准确率。我意识到对于语言模型来说，由于训练成本，自举法极其昂贵。）问题——首先，可能的单词数量非常少，以至于我怀疑性能看起来异常好。分类器在减弱后，对于单词5/6的性能似乎有所提升，但这可能只是学习了“所有足够‘极端’的token都应该是单词5或6”。另一方面，尽管文章中声称（Nanda得出结论，网络基本上学习了位置），但我碰巧有最近与Google Gemini互动并询问它“Google”中有多少个“r”和其他字母的截图。它不仅回答错误——声称有1个——而且更令人担忧的是，它在回答中拼写出了“G-o-o-g-l-e”。这暗示了“它无法准确学习如何分解token，因此这个问题从模型容量的角度来看是不公平的”这一假设，但*仍然*导致了错误的答案！

查看原文

如何分析探针的相对“强度”？[R]

相似文章

Gemini与AI幻觉

从信号到迁移：基于探针的大语言模型不确定性估计的分解研究

大语言模型中欺骗探测探头的压力测试：可伸缩性、鲁棒性与欺骗表征的几何特性

GENEB：为何基因组模型难以相互比较

Artificial Analysis | Google 进行基准测试的首选网站 | Gemini 3.1 Pro 在实际使用中远不及 Opus 4.7

提交意见反馈