construct-validity

#construct-validity

正确编码却出于错误原因？验证大语言模型作为理论构念的测量工具

arXiv cs.CL ↗ · 5天前缓存

本文探讨了在使用大语言模型作为理论构念的编码工具时，信度与构念效度之间的差距，并提出了粒度校准方法，将构念分解为子句级组件，以实现更有效的测量。

0 人收藏 0 人点赞

#construct-validity

基准饱和之后：CORE-Bench 案例研究

arXiv cs.AI ↗ · 2026-06-26 缓存

本文反对在基准准确率饱和时直接“废止并替换”的做法，以 CORE-Bench 为例，证明在准确率持平后，从构建效度、效率、可靠性以及人机协作等维度衡量智能体性能，仍能获得有意义的洞见。

0 人收藏 0 人点赞

#construct-validity

能力的坐标系：用于大语言模型评估的统一MTMM几何框架

arXiv cs.CL ↗ · 2026-05-12 缓存

这篇知识系统化论文提出了一种用于评估大语言模型的统一多特质多方法（MTMM）几何框架，将不同的指标整合到一个共享的潜在坐标空间中，以解决当前基准测试中的构念效度问题。

0 人收藏 0 人点赞

#construct-validity

代理预设：从语义嵌入到有效的社会测量

arXiv cs.CL ↗ · 2026-05-11 缓存

本文批评了自然语言处理（NLP）中的“代理预设”，即错误地将几何嵌入属性与社会构念等同起来。文章提出了结构效度协议（Construct Validity Protocol）和反事实中立化（Counterfactual Neutralization）方法，以确保对源自语义嵌入的社会测量进行严格的验证。

0 人收藏 0 人点赞

construct-validity

正确编码却出于错误原因？验证大语言模型作为理论构念的测量工具

基准饱和之后：CORE-Bench 案例研究

能力的坐标系：用于大语言模型评估的统一MTMM几何框架

代理预设：从语义嵌入到有效的社会测量

提交意见反馈