如何分析探针的相对“强度”?[R]

Reddit r/MachineLearning 新闻

摘要

作者询问如何分析神经网络中探针的相对“强度”,讨论了词汇量有限和模型容量等挑战,并以Google Gemini为例说明了失败情况。

这个问题与语言+模型(包括多模态)以及“电路”分析等主题相关。我认为在我的工作中(模型输出的事实性保证)可能会遇到类似的问题,所以我正在尝试了解当前的最新进展。我找到了这篇旧文章,其中试图推断,例如,基于Transformer的模型是否“知道”一个token属于哪个单词。即使在这个简单的例子中,我也注意到了一些有意义的问题(我在脚注1中详细说明,以免偏离我的问题)——而且我听说电路研究相当棘手。这篇文章声称训练了一个逻辑回归分类器。我好奇的是,如何在探针的能力和底层网络之间取得平衡?具体来说,我想知道:是否有理论基础可以将“你能学到什么”的探究具体化?(也许是在过拟合的可证明保证方面?或者是否有类似奈奎斯特的保证,基于语言语料库中模式的频率进行采样——即,我们能否说已经“看到了足够的数据”来知道网络在所有情况下都能可靠地完成某些事情?)现有的工作是否考虑了给示例标注“难度”的尝试?(也许是通过集成一些模型的训练并查看其准确率。我意识到对于语言模型来说,由于训练成本,自举法极其昂贵。)问题——首先,可能的单词数量非常少,以至于我怀疑性能看起来异常好。分类器在减弱后,对于单词5/6的性能似乎有所提升,但这可能只是学习了“所有足够‘极端’的token都应该是单词5或6”。另一方面,尽管文章中声称(Nanda得出结论,网络基本上学习了位置),但我碰巧有最近与Google Gemini互动并询问它“Google”中有多少个“r”和其他字母的截图。它不仅回答错误——声称有1个——而且更令人担忧的是,它在回答中拼写出了“G-o-o-g-l-e”。这暗示了“它无法准确学习如何分解token,因此这个问题从模型容量的角度来看是不公平的”这一假设,但*仍然*导致了错误的答案!
查看原文

相似文章

Gemini与AI幻觉

Reddit r/artificial

讨论Google Gemini模型中的AI幻觉问题,突出大型语言模型在可靠性和准确性方面的挑战。

GENEB:为何基因组模型难以相互比较

arXiv cs.CL

GENEB 是一个大规模诊断基准,在统一的探测协议下,跨 13 个功能类别的 100 项任务对 40 个基因组基础模型进行评估。研究结果揭示了综合排行榜的不稳定性,以及架构匹配度往往比模型规模更具决定性影响。该工作旨在解决基因组机器学习领域评估体系碎片化的问题,类似于 MTEB 在 NLP 领域所做的工作。