标签
本文研究了词汇重叠(而非语义内容)如何影响跨层和跨架构的大语言模型表示,并证明即使在为语义相似性训练的模型中,这种词汇效应依然存在,导致下游任务性能下降。
本文提出有界行为不可区分性,一种超越语义相似性的黑盒LLM蒸馏评估形式化框架。在Qwen和Llama模型上的实验表明,蒸馏降低了但并未消除对抗性可区分性,凸显了类别感知评估的必要性。
OmniOPD 提出了一种无Logit的同策略蒸馏方法,利用块级语义相似性和推测验证,在黑盒教师指导下训练学生模型,在数学基准上相比标准OPD实现了高达+28.64%的提升。
PNNL 与华盛顿大学的研究人员提出一套系统化框架,测试五种大语言模型在文档中捕捉细微语义变化的能力,揭示位置偏差、上下文连贯效应及模型特有的评分“指纹”。