标签
本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。
对 TranslateGemma-12b 翻译结果的人工审核显示,71% 被自动指标评定为合格的片段实际上存在错误,凸显了仅依赖自动指标评估多语言翻译质量时的显著不足。
本文主张,在计算、功耗、冷却和运营效率的约束下,LLM推理应当作为能量到令牌的生产来评估,并提出了如焦耳/令牌和经PUE调整的输送功率等新指标。
一篇讨论如何在分布式系统中正确使用国际单位制测量请求速率的文章,提议使用赫兹 (Hz) 表示周期性/规则流量,使用贝克勒尔 (Bq) 表示随机/有机流量模式,以标准化请求速率的通信方式。