statistical-test

#statistical-test

UnpredictaBench：评估大语言模型分布随机性的基准

arXiv cs.CL ↗ · 昨天缓存

UnpredictaBench是一个用于评估大语言模型从目标分布（包括统计和自然语言随机过程）中采样能力的基准。实验表明，当前模型难以捕捉真实的底层分布，在KS@100指标上没有模型超过40%。

0 人收藏 0 人点赞