Llama基准测试与实际性能差距很大（求助）

Reddit r/LocalLLaMA 2026/06/18 10:25 新闻

llama benchmark performance disparity real-world ai-models

摘要

关于Llama模型基准测试分数与实际性能之间存在显著差距的讨论，作者正在寻求帮助。

暂无内容

查看原文

相似文章

Reddit r/LocalLLaMA

一位用户使用llama.cpp（行/张量切分）和ik_llama（图切分）在两张RTX 3080 20GB上对双GPU推理速度进行了基准测试，使用Qwen3.6-27B GGUF模型，比较了token生成和提示处理速度。

X AI KOLs Following

本文认为，LLM基准测试性能越来越依赖于测试时的计算量，而当前的评估方法在控制推理预算时无法捕捉到能力的提升。它主张绘制性能与token数、成本或时间的关系图，并讨论了对安全评估的影响。

Reddit r/LocalLLaMA

一名用户讨论了在 AMD 硬件上进行本地单用户推理时，使用 vLLM 与 llama.cpp 之间的权衡，质疑在非企业级环境中 vLLM 的性能优势是否足以弥补其带来的复杂性。

arXiv cs.CL

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集，研究了标准基准是否低估了大语言模型（LLM）的性能。研究发现，在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性，并表明针对容易产生歧义的任务，采用模型辅助的重新评估能产生更可靠的基准。

Reddit r/LocalLLaMA

在Strix Halo上对llama.cpp中的多令牌预测（MTP）进行的基准测试显示，长上下文聊天场景下27B Qwen模型显著加速，而35B模型则表现不一。