Llama基准测试与实际性能差距很大(求助)

Reddit r/LocalLLaMA 新闻

摘要

关于Llama模型基准测试分数与实际性能之间存在显著差距的讨论,作者正在寻求帮助。

暂无内容
查看原文

相似文章

@polynoamial: https://x.com/polynoamial/status/2064210146558136827

X AI KOLs Following

本文认为,LLM基准测试性能越来越依赖于测试时的计算量,而当前的评估方法在控制推理预算时无法捕捉到能力的提升。它主张绘制性能与token数、成本或时间的关系图,并讨论了对安全评估的影响。

基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。