标签
本文探讨了在使用大语言模型作为理论构念的编码工具时,信度与构念效度之间的差距,并提出了粒度校准方法,将构念分解为子句级组件,以实现更有效的测量。
本文反对在基准准确率饱和时直接“废止并替换”的做法,以 CORE-Bench 为例,证明在准确率持平后,从构建效度、效率、可靠性以及人机协作等维度衡量智能体性能,仍能获得有意义的洞见。
这篇知识系统化论文提出了一种用于评估大语言模型的统一多特质多方法(MTMM)几何框架,将不同的指标整合到一个共享的潜在坐标空间中,以解决当前基准测试中的构念效度问题。
本文批评了自然语言处理(NLP)中的“代理预设”,即错误地将几何嵌入属性与社会构念等同起来。文章提出了结构效度协议(Construct Validity Protocol)和反事实中立化(Counterfactual Neutralization)方法,以确保对源自语义嵌入的社会测量进行严格的验证。