BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
differential-item-functioning
标签
Cards
List
#differential-item-functioning
FormInv:数学推理基准中语义不变性的测量协议
arXiv cs.LG
↗
· 2026-05-29
缓存
FormInv 提出了一种用于评估数学推理基准中语义不变性的测量协议,揭示了模型排名在释义族之间反转,并且标准准确率指标掩盖了语义一致性上的巨大差距。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交