benchmark-generator

标签

Cards List
#benchmark-generator

RankJudge:一个多轮LLM-as-a-Judge合成基准生成器

arXiv cs.CL · 2026-05-22 缓存

RankJudge是一个基准生成器,它创建带有注入缺陷的配对多轮对话,用于评估LLM评判者在复杂对话中正确识别更好和更差回复的能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈