标签
本文提出了一种两阶段抽样设计,其中LLM评估用于增强而非替代人工评分,并利用缺失数据文献中的双重稳健估计量,提供了确定人工和LLM评审样本量的指导。
对 TranslateGemma-12b 翻译结果的人工审核显示,71% 被自动指标评定为合格的片段实际上存在错误,凸显了仅依赖自动指标评估多语言翻译质量时的显著不足。
# 对抗游戏提高语言模型输出的可读性 来源: [https://openai.com/index/prover-verifier-games-improve-legibility/](https://openai.com/index/prover-verifier-games-improve-legibility/) 确保语言模型生成可理解的文本对于提高其实用性至关重要,尤其是在处理复杂任务(如解决数学问题)时。我们发现,当我们仅针对获得正确答案来优化强大模型的问题求解过程时