construct-validity

标签

Cards List
#construct-validity

能力的坐标系:用于大语言模型评估的统一MTMM几何框架

arXiv cs.CL · 6天前 缓存

这篇知识系统化论文提出了一种用于评估大语言模型的统一多特质多方法(MTMM)几何框架,将不同的指标整合到一个共享的潜在坐标空间中,以解决当前基准测试中的构念效度问题。

0 人收藏 0 人点赞
#construct-validity

代理预设:从语义嵌入到有效的社会测量

arXiv cs.CL · 2026-05-11 缓存

本文批评了自然语言处理(NLP)中的“代理预设”,即错误地将几何嵌入属性与社会构念等同起来。文章提出了结构效度协议(Construct Validity Protocol)和反事实中立化(Counterfactual Neutralization)方法,以确保对源自语义嵌入的社会测量进行严格的验证。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈