bradley-terry

标签

Cards List
#bradley-terry

Reasoning Arena: 当可验证奖励不足时的追踪锦标赛

Hugging Face Daily Papers · 4天前 缓存

Reasoning Arena 通过使用追踪锦标赛和Bradley-Terry模型,从非多样化奖励组中生成有意义的梯度,从而改进了基于可验证奖励的强化学习,实现了更快的训练和更好的推理性能。

0 人收藏 0 人点赞
#bradley-terry

通过证据校准的查询聚类捕捉LLM能力

arXiv cs.AI · 2026-05-19 缓存

本文介绍了ECC算法,该算法通过有限模型比较校准语义嵌入,根据潜在能力需求对查询进行聚类,将LLM能力排名质量相较于基线提高了超过17个百分点。

0 人收藏 0 人点赞
#bradley-terry

HumorRank:基于锦标赛的排行榜,用于评估大语言模型的幽默生成能力

arXiv cs.CL · 2026-04-23 缓存

HumorRank 通过成对比较和 Bradley-Terry 最大似然估计,构建锦标赛式排行榜,对 LLM 的幽默生成进行排名,发现幽默质量取决于喜剧技巧而非模型规模。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈