evaluation-methods

#evaluation-methods

LLM-as-Judge的几何学：为何LLM间共识并非人类对齐

arXiv cs.CL ↗ · 2026-06-03 缓存

本文从几何角度分析了为何作为裁判的LLM彼此之间高度一致，但与人类仅弱相关，发现LLM间共识在主观评分标准上反映的是坍塌子空间，而非真正的人类对齐。基于人类数据的后验校准提高了对齐，但即使经过校准的LLM也未达到人类的可靠性。

0 人收藏 0 人点赞

#evaluation-methods

arXiv cs.AI ↗ · 2026-05-22 缓存

本文认为传统基准测试既高估又低估了前沿AI能力，并提出“开放世界评估”——一种定性评估的长期、真实世界任务——作为补充方法。介绍了CRUX项目，并通过一个演示展示了AI代理在最少干预下成功将iOS应用发布到App Store。

0 人收藏 0 人点赞

#evaluation-methods

Papers with Code Trending ↗ · 2025-02-07 缓存

本文提出了一种名为自监督提示优化（SPO）的框架，该框架通过输出对比来优化大语言模型的提示词，无需外部参考，显著降低了成本和数据需求。

0 人收藏 0 人点赞