观点:LLM推理应当以能量到令牌的生产来评估

Hugging Face Daily Papers 论文

摘要

本文主张,在计算、功耗、冷却和运营效率的约束下,LLM推理应当作为能量到令牌的生产来评估,并提出了如焦耳/令牌和经PUE调整的输送功率等新指标。

LLM推理仍然主要是作为一个模型或软件问题来评估:准确率、延迟、吞吐量和硬件利用率。这是不完整的。在部署规模上,相关的输出是在有效计算、数据中心输送功率、冷却能力、PUE和利用率的联合约束下产生的质量条件化令牌。 我们认为机器学习社区应将推理视为能量到令牌的生产。我们用量纲一致的令牌生产函数形式化这一观点,其中令牌速率同时受限于每令牌计算量和每令牌能量上限。不同提供商列出的API价格相差一个数量级以上,但我们仅将价格离散度作为方向性动机,而非边际成本的因果证据。核心物理问题反而是:在固定的质量和服务目标下,何时约束瓶颈从理论峰值计算转向输送功率、冷却和运营效率? 在此框架下,系统优化——潜在KV缓存压缩、稀疏或重度压缩的注意力、量化、路由和难度自适应推理——不仅仅是局部工程技巧。它们是通过降低每令牌FLOPs、每令牌焦耳、内存流量或利用率损失(在固定的q*和s*下)来影响能量到令牌的杠杆。因此,我们呼吁推理论文和基准测试在报告准确率和延迟的同时,也报告焦耳/令牌、活跃约束瓶颈、经PUE调整的输送功率以及经利用率调整的令牌输出。
查看原文
查看缓存全文

缓存时间: 2026/05/14 04:17

论文页面 - 观点:LLM推理应被评估为能量到令牌的生产

来源:https://huggingface.co/papers/2605.11733

摘要

LLM推理应在计算、功耗、冷却和运营效率的约束下,被评估为能量到令牌的生产,这需要超越传统准确性和延迟指标的新度量标准。

LLM推理目前仍主要被当作模型或软件问题来评估:准确性、延迟、吞吐量和硬件利用率。这是不完整的。在部署规模下,相关产出是在有效计算、数据中心交付功率、冷却能力、PUE (https://huggingface.co/papers?q=PUE) 和利用率等联合约束下,经质量条件化的令牌。我们认为,机器学习社区应将推理视为能量到令牌的生产 (https://huggingface.co/papers?q=energy-to-token%20production)。我们用量纲一致的令牌生产函数 (https://huggingface.co/papers?q=Token%20Production%20Function) 形式化这一观点,其中令牌速率同时受每令牌计算量和每令牌能量上限的约束。不同提供商列出的API价格差异超过一个数量级,但我们仅将价格离散性作为方向性参考,而非边际成本的因果证据。核心物理问题在于:在固定的质量和服务目标下,何时约束条件从理论峰值计算转向交付功率 (https://huggingface.co/papers?q=delivered%20power)、冷却和运营效率?在这一框架下,系统优化——潜在KV缓存压缩 (https://huggingface.co/papers?q=latent%20KV-cache%20compression)、稀疏或重度压缩注意力、量化 (https://huggingface.co/papers?q=quantization)、路由 (https://huggingface.co/papers?q=routing) 以及难度自适应推理 (https://huggingface.co/papers?q=difficulty-adaptive%20reasoning)——不仅仅是局部工程技巧。它们是能量到令牌的杠杆,因为在固定 (q^*, s^*) 下,它们能减少每令牌FLOPs (https://huggingface.co/papers?q=FLOPs%2Ftoken)、每令牌焦耳数 (https://huggingface.co/papers?q=joules%2Ftoken)、内存流量或利用率损失。因此,我们呼吁推理论文和基准在报告准确性和延迟的同时,也报告每令牌焦耳数 (https://huggingface.co/papers?q=Joules%2Ftoken)、活动绑定约束、经PUE (https://huggingface.co/papers?q=PUE) 调整的交付功率 (https://huggingface.co/papers?q=delivered%20power) 以及经利用率调整的令牌输出 (https://huggingface.co/papers?q=utilization-adjusted%20token%20output)。

查看arXiv页面 (https://arxiv.org/abs/2605.11733) 查看PDF (https://arxiv.org/pdf/2605.11733) 项目页面 (https://dominic789654.github.io/energy-to-token/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.11733)

在你的代理中获取这篇论文:

hf papers read 2605.11733

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.11733 以从本页面链接。

引用本论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.11733 以从本页面链接。

引用本论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.11733 以从本页面链接。

包含本论文的收藏0

没有收藏包含此论文

将这篇论文添加到收藏 (https://huggingface.co/new-collection) 以从本页面链接。

相似文章