标签
这篇知识系统化论文提出了一种用于评估大语言模型的统一多特质多方法(MTMM)几何框架,将不同的指标整合到一个共享的潜在坐标空间中,以解决当前基准测试中的构念效度问题。
本文批评了自然语言处理(NLP)中的“代理预设”,即错误地将几何嵌入属性与社会构念等同起来。文章提出了结构效度协议(Construct Validity Protocol)和反事实中立化(Counterfactual Neutralization)方法,以确保对源自语义嵌入的社会测量进行严格的验证。