human-evaluation

标签

Cards List
#human-evaluation

用LLM评审员增强人工评估:你需要多少人工审核?

arXiv cs.LG · 2026-05-19 缓存

本文提出了一种两阶段抽样设计,其中LLM评估用于增强而非替代人工评分,并利用缺失数据文献中的双重稳健估计量,提供了确定人工和LLM评审样本量的指导。

0 人收藏 0 人点赞
#human-evaluation

关于 TranslateGemma-12b 基准测试文章的跟进:人工审核发现 71% 被自动指标评为合格的片段存在错误

Reddit r/LocalLLaMA · 2026-05-12

对 TranslateGemma-12b 翻译结果的人工审核显示,71% 被自动指标评定为合格的片段实际上存在错误,凸显了仅依赖自动指标评估多语言翻译质量时的显著不足。

0 人收藏 0 人点赞
#human-evaluation

对抗游戏提高语言模型输出的可读性

OpenAI Blog · 2024-07-17 缓存

# 对抗游戏提高语言模型输出的可读性 来源: [https://openai.com/index/prover-verifier-games-improve-legibility/](https://openai.com/index/prover-verifier-games-improve-legibility/) 确保语言模型生成可理解的文本对于提高其实用性至关重要,尤其是在处理复杂任务(如解决数学问题)时。我们发现,当我们仅针对获得正确答案来优化强大模型的问题求解过程时

0 人收藏 0 人点赞
← 返回首页

提交意见反馈