标签
本文提出了一种无需训练的方法,可以在无需人工标注的情况下自动生成细粒度的评估准则用于LLM-as-a-Judge,并进一步介绍了一种迭代微调策略,使准则生成器的性能超过更大的专有模型。
SCOPE是一个用于开放式任务的自我对弈框架,它共同进化挑战者(Challenger)和求解器(Solver)策略,在没有外部监督的情况下,在基准测试上取得了高达+10.4分的提升。