human-evaluation

#human-evaluation

前沿大型语言模型的响应漂移

arXiv cs.CL ↗ · 2天前缓存

一项针对10个前沿大语言模型、涵盖62个问题的大规模人类评估发现，所有模型都表现出响应漂移，其中大多数模型收敛到78-81%的偏差上限，而两个模型实现了较低的偏差。漂移程度因领域和问题而异，自动指标几乎无法解释人类判断，这凸显了人类评估的必要性。

0 人收藏 0 人点赞

#human-evaluation

推出 Real World VoiceEQ：衡量语音AI的拟人化质量

Hugging Face Blog ↗ · 2026-07-15 缓存

Real World VoiceEQ 是一个新基准，用于评估语音AI的拟人化质量，基于超过一百万的人类评分，在真实世界条件下评估语音识别、合成和理解的模型。

0 人收藏 0 人点赞

#human-evaluation

AI翻译文学文本“还行”，但读者依然更偏爱人工翻译

Hugging Face Daily Papers ↗ · 2026-06-24 缓存

一项对比文学作品中人工翻译与AI翻译的研究表明，虽然机器翻译被视为“还行”，但读者仍因其沉浸感和清晰度更偏爱人工翻译。自动指标无法捕捉读者偏好。

0 人收藏 0 人点赞

#human-evaluation

GLM-5.2的人类评估

Reddit r/LocalLLaMA ↗ · 2026-06-23

作者称赞GLM-5.2（一个MIT开源权重模型）在人类评估基准中表现出色，声称其能与Claude等最佳闭源模型相媲美。

0 人收藏 0 人点赞

#human-evaluation

技能增强型AI代理在医学研究分析中的应用：一项NSCLC转录组生物标志物任务中的探索性多模型人类评估

arXiv cs.AI ↗ · 2026-06-11 缓存

本探索性研究在NSCLC生物标志物任务中使用多模型人类评估，评估将AI代理与医学研究技能包相结合是否能提高转录组研究分析输出的质量（与原生AI相比）。结果显示有方向性但无统计显著性的改善，强调了进行更大规模、更稳健评估的必要性。

0 人收藏 0 人点赞

#human-evaluation

论LLM作为裁判在科学新颖性评估中的局限性

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

本文介绍了RQ-Bench，一个用于评估LLM判断科学研究问题新颖性的基准。研究发现，LLM裁判一致认为生成的问题比人类专家认为的更新颖，这引发了对使用LLM进行科学新颖性评估可靠性的担忧。

0 人收藏 0 人点赞

#human-evaluation

在LLM个性化中重新以人类为中心

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

本文通过将真实人类重新引入评估循环，研究LLM个性化的有效性，揭示了在个性化管道的每个阶段人类判断与LLM输出之间的系统性差距，并强调了合成数据和LLM评判的局限性。

0 人收藏 0 人点赞

#human-evaluation

用LLM评审员增强人工评估：你需要多少人工审核？

arXiv cs.LG ↗ · 2026-05-19 缓存

本文提出了一种两阶段抽样设计，其中LLM评估用于增强而非替代人工评分，并利用缺失数据文献中的双重稳健估计量，提供了确定人工和LLM评审样本量的指导。

0 人收藏 0 人点赞

#human-evaluation

关于 TranslateGemma-12b 基准测试文章的跟进：人工审核发现 71% 被自动指标评为合格的片段存在错误

Reddit r/LocalLLaMA ↗ · 2026-05-12

对 TranslateGemma-12b 翻译结果的人工审核显示，71% 被自动指标评定为合格的片段实际上存在错误，凸显了仅依赖自动指标评估多语言翻译质量时的显著不足。

0 人收藏 0 人点赞

#human-evaluation

# 对抗游戏提高语言模型输出的可读性来源: [https://openai.com/index/prover-verifier-games-improve-legibility/](https://openai.com/index/prover-verifier-games-improve-legibility/) 确保语言模型生成可理解的文本对于提高其实用性至关重要，尤其是在处理复杂任务（如解决数学问题）时。我们发现，当我们仅针对获得正确答案来优化强大模型的问题求解过程时

0 人收藏 0 人点赞

human-evaluation

提交意见反馈