benchmarking

标签

Cards List
#benchmarking

测量五九可靠性:饱和基准测试中样本高效的LLM评估

arXiv cs.LG · 17小时前 缓存

本文提出了一种使用交叉熵方法进行极端可靠性(“五九”)估计的样本高效框架,解决了标准基准测试在检测罕见故障方面的局限性。

0 人收藏 0 人点赞
#benchmarking

评估失效的缩放定律:为何简单平均在数据稀疏和题目难度差距下会崩溃,以及项目反应理论如何跨领域恢复真实情况

arXiv cs.LG · 17小时前 缓存

本文指出,在数据稀疏和难度异构的情况下,AI基准测试中的简单平均法会失效,并提出项目反应理论(IRT)作为一种稳健的替代方案,以恢复真实的排名情况。

0 人收藏 0 人点赞
#benchmarking

自动化智能体评估的实证研究

arXiv cs.CL · 17小时前 缓存

本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。

0 人收藏 0 人点赞
#benchmarking

如果你只是自己使用模型而不对外提供服务,vLLM 真的值得用吗?

Reddit r/LocalLLaMA · 23小时前

一名用户讨论了在 AMD 硬件上进行本地单用户推理时,使用 vLLM 与 llama.cpp 之间的权衡,质疑在非企业级环境中 vLLM 的性能优势是否足以弥补其带来的复杂性。

0 人收藏 0 人点赞
#benchmarking

我们一直在基准测试中挑选前沿模型,但这些测试条件与我们的实际部署环境并不相符。

Reddit r/AI_Agents · 昨天

本文突出了 Claude Opus 和 Gemini Pro 在预测基准测试中的性能排名反转,具体取决于模型是自行进行网络搜索还是使用固定的证据。这表明,在研究阶段 Opus 表现出色,而 Gemini 在基于固定证据的判断方面更胜一筹,揭示了标准基准测试与实际部署条件之间的不匹配。

0 人收藏 0 人点赞
#benchmarking

@AmelieTabatta: ColBERT 模型继续让体积为其 54 倍的模型颜面扫地,这就是我们信任 Late Interaction @LightOnIO 的原因。一条 1 年…

X AI KOLs Following · 昨天 缓存

本文强调了 ColBERT 模型如何凭借延迟交互(late interaction)技术和极少微调,尽管体积更小且发布时间更早,仍优于 Qwen3-embed-8B 等更大规模的模型。

0 人收藏 0 人点赞
#benchmarking

MagicQuant (v2.0) - 混合式GGUF量化模型 + Unsloth动态学习量化配置 + 包含可折叠赢家的基准表等

Reddit r/LocalLLaMA · 昨天

MagicQuant v2.0 是一个用于创建混合式GGUF量化模型的管道,它通过学习Unsloth和其他方法,基于KLD基准找到最优量化配置,重点关注非线性赢家和异常检测。

0 人收藏 0 人点赞
#benchmarking

MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp

Reddit r/LocalLLaMA · 昨天

一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试,比较启用和未启用 MTP(多令牌预测)时的性能。结果显示,在 RTX5090 上使用 Qwen3.6-27B 模型时,启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。

0 人收藏 0 人点赞
#benchmarking

为什么每个“上下文层”工具都在谎报token节省量?

Reddit r/AI_Agents · 昨天

作者批评了新兴的上下文层和MCP优化器工具缺乏透明的基准测试,这些工具承诺大幅节省token,但实际测试却无法复现其声称的效率。他们敦促开发者要求公开、可复现的基准测试,并寻求真正能提供可衡量结果的工具推荐。

0 人收藏 0 人点赞
#benchmarking

模型与量化质量测试结果 - 棋盘 SVG (Qwen3.6 27B/35B-A3B/Zaya1)

Reddit r/LocalLLaMA · 昨天

社区测试者使用MLX等本地推理框架,评估Qwen3.6、ZAYA1等模型的量化版本在SVG棋盘生成准确性方面的表现。

0 人收藏 0 人点赞
#benchmarking

日志分析对于可信的 AI 智能体评估至关重要

arXiv cs.AI · 昨天 缓存

本文论证了日志分析对于可信的 AI 智能体评估至关重要,因为仅关注结果的基准测试往往无法揭示潜在的能力、安全风险或失败模式。

0 人收藏 0 人点赞
#benchmarking

衡量关键指标:医疗保健中生成式、多模态及智能体AI的基准测试

arXiv cs.AI · 昨天 缓存

本文提出了一个针对医疗保健领域生成式、多模态及智能体AI进行基准测试的结构化框架,旨在解决高基准得分与实际临床可靠性、安全性和相关性之间的差距。

0 人收藏 0 人点赞
#benchmarking

Blackwell LLM 工具包 - 针对 Blackwell GPU 的 NVFP4 配置 + Wheels + TensorRT-LLM 基准测试 - Nemotron 3 Omni 达到 270 tok/s

Reddit r/LocalLLaMA · 昨天

一个开发者工具包,提供在使用 TensorRT-LLM 通过 Nvidia Blackwell GPU 以 NVFP4 精度运行大型语言模型时的配置、预编译包(wheels)及基准测试数据。

0 人收藏 0 人点赞
#benchmarking

你的框架辜负了你的智能体,但却没有基准来证明这一点

Reddit r/AI_Agents · 昨天

本文强调了缺乏用于评估智能体框架可靠性的基准测试,重点探讨了与模型本身相比,MCP 实现如何更好地处理工具调用和错误。

0 人收藏 0 人点赞
#benchmarking

MemoryOS —— 具备时序知识图谱的 AI 智能体记忆,实现 9ms 摄取与 78ms 检索

Reddit r/AI_Agents · 昨天

MemoryOS 是一款开源、可自托管的 AI Agent 记忆工具,它利用时序知识图谱技术,在 LongMemEval-s 基准测试中实现了 86.2% 的准确率,并以 78 毫秒的快速检索速度著称。

0 人收藏 0 人点赞
#benchmarking

@_EldarKurtic: TurboQuant 近期备受瞩目,但随附的评测并未讲述全部故事。因此我们运行了……

X AI KOLs Following · 2天前 缓存

Eldar Kurtic 带来了一项针对 TurboQuant 的综合研究,揭示了其超越初期评估之外的、在精度、延迟及吞吐量方面的真实世界影响。

0 人收藏 0 人点赞
#benchmarking

有基准却无度量——生成式人工智能应以现实效用为评估标准

arXiv cs.LG · 2天前 缓存

本文主张生成式人工智能的评估应从静态基准转向衡量现实效用和人类成果。文章提出了 SCU-GenEval 框架及辅助工具,旨在解决基准表现与部署成功之间的脱节问题。

0 人收藏 0 人点赞
#benchmarking

前沿大语言模型中的领域级元认知监控:一份33个模型图谱

arXiv cs.CL · 2天前 缓存

本研究提出了一份涵盖33个模型的图谱,利用MMLU基准分析了前沿大语言模型中的领域级元认知监控,揭示了聚合指标所掩盖的不同知识领域中置信度校准的显著差异。

0 人收藏 0 人点赞
#benchmarking

直观感受每秒 X 个 token 的实际速度

Reddit r/LocalLLaMA · 3天前

作者介绍了一款基于 Web 的脚本,旨在通过模拟文本、代码和推理生成的速率,帮助用户直观理解本地大语言模型(LLM)部署中的每秒 token 数(tokens per second)性能。

0 人收藏 0 人点赞
#benchmarking

LLM 排名并非阶梯:来自传递性基准图的实验结果 [D]

Reddit r/MachineLearning · 4天前

作者介绍了 LLM Win,这是一个将大语言模型(LLM)基准测试结果可视化为有向图的工具,用于分析传递关系和排名逆转。实验结果表明,LLM 的排名更像是一个具有较高弱到强可达性的能力图,而非线性阶梯。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈