differential-item-functioning

标签

Cards List
#differential-item-functioning

FormInv:数学推理基准中语义不变性的测量协议

arXiv cs.LG · 2026-05-29 缓存

FormInv 提出了一种用于评估数学推理基准中语义不变性的测量协议,揭示了模型排名在释义族之间反转,并且标准准确率指标掩盖了语义一致性上的巨大差距。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈