标签
吉林大学研究人员对多模态大语言模型(MLLMs)在多视频摘要任务中的位置偏差进行了系统性评估,基于 ActivityNet 和新闻视频构建了评测基准,并采用覆盖率、方向性位置偏差(DPB)和中间-边缘差距(MEG)等指标对九个模型进行了全面评估。结果表明,位置效应因领域和模型而异,且增加视觉输入或生成预算并不能统一消除这种不平衡现象。
本文发现了一种‘位置复制’捷径:小型语言模型通过复制答案分隔符前的最后一个数字来回答算术问题,绕过了实际推理。该效应解释了为何打乱CoT步骤仍能保持性能;在GSM8K上,它占1-3B模型教师强制准确率的89-92%。
SDSR 提出轻量级自描述结构化数据,并辅以双层引导,利用 LLM 的首位偏差,在无向量数据库的情况下实现 100% 路由准确率。