如何分析探针的相对“强度”?[R]
摘要
作者询问如何分析神经网络中探针的相对“强度”,讨论了词汇量有限和模型容量等挑战,并以Google Gemini为例说明了失败情况。
这个问题与语言+模型(包括多模态)以及“电路”分析等主题相关。我认为在我的工作中(模型输出的事实性保证)可能会遇到类似的问题,所以我正在尝试了解当前的最新进展。我找到了这篇旧文章,其中试图推断,例如,基于Transformer的模型是否“知道”一个token属于哪个单词。即使在这个简单的例子中,我也注意到了一些有意义的问题(我在脚注1中详细说明,以免偏离我的问题)——而且我听说电路研究相当棘手。这篇文章声称训练了一个逻辑回归分类器。我好奇的是,如何在探针的能力和底层网络之间取得平衡?具体来说,我想知道:是否有理论基础可以将“你能学到什么”的探究具体化?(也许是在过拟合的可证明保证方面?或者是否有类似奈奎斯特的保证,基于语言语料库中模式的频率进行采样——即,我们能否说已经“看到了足够的数据”来知道网络在所有情况下都能可靠地完成某些事情?)现有的工作是否考虑了给示例标注“难度”的尝试?(也许是通过集成一些模型的训练并查看其准确率。我意识到对于语言模型来说,由于训练成本,自举法极其昂贵。)问题——首先,可能的单词数量非常少,以至于我怀疑性能看起来异常好。分类器在减弱后,对于单词5/6的性能似乎有所提升,但这可能只是学习了“所有足够‘极端’的token都应该是单词5或6”。另一方面,尽管文章中声称(Nanda得出结论,网络基本上学习了位置),但我碰巧有最近与Google Gemini互动并询问它“Google”中有多少个“r”和其他字母的截图。它不仅回答错误——声称有1个——而且更令人担忧的是,它在回答中拼写出了“G-o-o-g-l-e”。这暗示了“它无法准确学习如何分解token,因此这个问题从模型容量的角度来看是不公平的”这一假设,但*仍然*导致了错误的答案!
相似文章
Gemini与AI幻觉
讨论Google Gemini模型中的AI幻觉问题,突出大型语言模型在可靠性和准确性方面的挑战。
从信号到迁移:基于探针的大语言模型不确定性估计的分解研究
本文对大语言模型中基于探针的不确定性估计进行了分解研究,表明原始隐藏状态和注意力特征在域内表现良好,但结构化特征在分布偏移下更为鲁棒,并提供了预训练探针作为现成基线。
大语言模型中欺骗探测探头的压力测试:可伸缩性、鲁棒性与欺骗表征的几何特性
本文系统测试了用于大语言模型欺骗检测的线性探头,发现它们在分布偏移下失效,但风格增强型探头能恢复性能,并揭示欺骗是通过分布式亚阈值特征编码的。
GENEB:为何基因组模型难以相互比较
GENEB 是一个大规模诊断基准,在统一的探测协议下,跨 13 个功能类别的 100 项任务对 40 个基因组基础模型进行评估。研究结果揭示了综合排行榜的不稳定性,以及架构匹配度往往比模型规模更具决定性影响。该工作旨在解决基因组机器学习领域评估体系碎片化的问题,类似于 MTEB 在 NLP 领域所做的工作。
Artificial Analysis | Google 进行基准测试的首选网站 | Gemini 3.1 Pro 在实际使用中远不及 Opus 4.7
一项比较表明,Google 的 Gemini 3.1 Pro 在实际使用中的表现远不如 Opus 4.7,文章强调 Artificial Analysis 是进行基准测试的首选资源。