evaluation-methods

标签

Cards List
#evaluation-methods

LLM-as-Judge的几何学:为何LLM间共识并非人类对齐

arXiv cs.CL · 2026-06-03 缓存

本文从几何角度分析了为何作为裁判的LLM彼此之间高度一致,但与人类仅弱相关,发现LLM间共识在主观评分标准上反映的是坍塌子空间,而非真正的人类对齐。基于人类数据的后验校准提高了对齐,但即使经过校准的LLM也未达到人类的可靠性。

0 人收藏 0 人点赞
#evaluation-methods

用于衡量前沿AI能力的开放世界评估

arXiv cs.AI · 2026-05-22 缓存

本文认为传统基准测试既高估又低估了前沿AI能力,并提出“开放世界评估”——一种定性评估的长期、真实世界任务——作为补充方法。介绍了CRUX项目,并通过一个演示展示了AI代理在最少干预下成功将iOS应用发布到App Store。

0 人收藏 0 人点赞
#evaluation-methods

自监督提示优化

Papers with Code Trending · 2025-02-07 缓存

本文提出了一种名为自监督提示优化(SPO)的框架,该框架通过输出对比来优化大语言模型的提示词,无需外部参考,显著降低了成本和数据需求。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈