请求速率的国际单位制 (2024)
摘要
一篇讨论如何在分布式系统中正确使用国际单位制测量请求速率的文章,提议使用赫兹 (Hz) 表示周期性/规则流量,使用贝克勒尔 (Bq) 表示随机/有机流量模式,以标准化请求速率的通信方式。
<p><a href="https://lobste.rs/s/x5hnnp/si_units_for_request_rate_2024">Comments</a></p>
查看缓存全文
缓存时间: 2026/04/20 14:55
# 请求速率的SI单位
来源:https://entropicthoughts.com/si-units-for-request-rate
**请求速率**是指在某个时间段内到达、被处理或离开的请求数量。
令人惊讶的是,许多人在讨论请求速率时往往不会指定时间段的长度。我甚至见过一些仪表板的指标查询没有固定的时间段 – 请求速率会根据仪表板在当时认为适合窗口大小的任何聚合间隔来测量。如果你缩小视图,请求速率会上升。如果你将窗口移到高分辨率屏幕上,请求速率会下降。
我们应该在发送到指标数据库的查询中指定时间段长度,这样无论用户的仪表板占用多少像素,每个人看到的请求速率都是一样的。
合适的时间段长度是秒。请求速率应该以每秒请求数来衡量。1注1:我见过一些人用每分钟请求数来衡量。别学他们那样。这听起来应该有一个 SI 单位,即我们应该能够说"我们的请求速率是57瓦"之类的话。除非显然不是瓦特。
---
结果表明有**两个** SI 单位都可以适用:
- **赫兹**(Hz)是 SI **频率**单位。它被定义为每秒一个事件。
- **贝克勒尔**(Bq)是 SI **(放射性)活度**单位。它也被定义为每秒一个事件。
为什么会有两个单位表示同一个概念?物理学家听到事件以 4 Hz 发生时,会认为恰好每 250 毫秒发生一个事件。赫兹单位与周期性行为密切相关。而放射性衰变的行为并不那么规则,只会平均以给定的频率发生。一个以 4 Bq 衰变的样本可能在某一秒内衰变零次,然后在下一秒衰变 9 次。2注2:假设泊松分布,这些是稀有事件,但如果你观察样本一小时,有超过 50% 的概率观察到衰变序列的确切发生。
因此,当我们讨论高度规则的负载测试时,每 2 毫秒稳定地发出一个请求,我们可以说请求速率是 500 Hz。但如果谈论的是碰巧平均每秒到达 500 次的有机流量,那么说 500 Bq 可能更合适。
当我们接近静态网络服务器或缓存能处理的请求速率时,这也很方便。说"90千贝克勒尔"和写"90 kBq"比说"每秒9万个请求"和写"90,000 requests/s"方便得多。3注3:一位读者建议改为发明单位"rips",我既喜欢这个想法也喜欢它的发音,但我就是喜欢按照自己的意愿弯曲标准。
---
**不过**!似乎 – 与作为通用单位的赫兹相反 – 贝克勒尔专门用于放射性衰变。对于平均以某个频率发生的任意事件,并没有 SI 单位。我会继续对请求速率使用贝克勒尔,我希望 50 年后,我们会忘记认为它仅关乎核衰变这个愚蠢的错误。
相似文章
RateQuant:基于率失真理论的优化混合精度KV Cache量化
本文介绍了 RateQuant,一种用于优化混合精度 KV Cache 量化的方法。该方法利用率失真理论解决失真模型不匹配问题,与 KIVI 和 QuaRot 等现有方法相比,在极低的校准开销下显著降低了困惑度。
阐明扩散概率模型的SNR-t偏差
# 论文页面 - 阐明扩散概率模型的SNR-t偏差 来源:[https://huggingface.co/papers/2604.16044](https://huggingface.co/papers/2604.16044) ## 摘要 扩散概率模型在推理阶段存在SNR-timestep偏差,本文提出一种微分校正方法,对频率分量分别处理,以极低计算代价提升多种模型的生成质量。 [扩散概率模型](https://hugg
直观感受每秒 X 个 token 的实际速度
作者介绍了一款基于 Web 的脚本,旨在通过模拟文本、代码和推理生成的速率,帮助用户直观理解本地大语言模型(LLM)部署中的每秒 token 数(tokens per second)性能。
BitCal-TTS:面向量化推理模型的比特校准测试时扩展
本文介绍了 BitCal-TTS,这是一种运行时控制器,通过在测试时扩展期间校准置信度信号,提高了量化推理模型的准确性并减少了过早终止的问题。
大家在 Qwen3.6 27b 上跑出来的速度是多少?
用户基准测试 Qwen3.6-27B-Q8_0,在 3 块混合 GPU 上通过 llama.cpp 以约 13 tokens/sec 运行 128k 上下文,询问该性能是否典型。