metrics

标签

Cards List
#metrics

AI模型构建者的不稳定指标与基准测试文化

arXiv cs.AI · 2天前 缓存

本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。

0 人收藏 0 人点赞
#metrics

关于 TranslateGemma-12b 基准测试文章的跟进:人工审核发现 71% 被自动指标评为合格的片段存在错误

Reddit r/LocalLLaMA · 5天前

对 TranslateGemma-12b 翻译结果的人工审核显示,71% 被自动指标评定为合格的片段实际上存在错误,凸显了仅依赖自动指标评估多语言翻译质量时的显著不足。

0 人收藏 0 人点赞
#metrics

观点:LLM推理应当以能量到令牌的生产来评估

Hugging Face Daily Papers · 6天前 缓存

本文主张,在计算、功耗、冷却和运营效率的约束下,LLM推理应当作为能量到令牌的生产来评估,并提出了如焦耳/令牌和经PUE调整的输送功率等新指标。

0 人收藏 0 人点赞
#metrics

请求速率的国际单位制 (2024)

Lobsters Hottest · 2026-04-19 缓存

一篇讨论如何在分布式系统中正确使用国际单位制测量请求速率的文章,提议使用赫兹 (Hz) 表示周期性/规则流量,使用贝克勒尔 (Bq) 表示随机/有机流量模式,以标准化请求速率的通信方式。

0 人收藏 0 人点赞
#metrics

全新的Waydev

Product Hunt · 2026-04-02

Waydev推出新平台,衡量完整的AI软件开发生命周期,从令牌级操作到生产部署全程跟踪指标。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈