statistical-test

标签

Cards List
#statistical-test

UnpredictaBench:评估大语言模型分布随机性的基准

arXiv cs.CL · 昨天 缓存

UnpredictaBench是一个用于评估大语言模型从目标分布(包括统计和自然语言随机过程)中采样能力的基准。实验表明,当前模型难以捕捉真实的底层分布,在KS@100指标上没有模型超过40%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈