观点：LLM推理应当以能量到令牌的生产来评估

Hugging Face Daily Papers 2026/05/12 00:00 论文

llm inference energy-efficiency token-production evaluation metrics

摘要

本文主张，在计算、功耗、冷却和运营效率的约束下，LLM推理应当作为能量到令牌的生产来评估，并提出了如焦耳/令牌和经PUE调整的输送功率等新指标。

LLM推理仍然主要是作为一个模型或软件问题来评估：准确率、延迟、吞吐量和硬件利用率。这是不完整的。在部署规模上，相关的输出是在有效计算、数据中心输送功率、冷却能力、PUE和利用率的联合约束下产生的质量条件化令牌。我们认为机器学习社区应将推理视为能量到令牌的生产。我们用量纲一致的令牌生产函数形式化这一观点，其中令牌速率同时受限于每令牌计算量和每令牌能量上限。不同提供商列出的API价格相差一个数量级以上，但我们仅将价格离散度作为方向性动机，而非边际成本的因果证据。核心物理问题反而是：在固定的质量和服务目标下，何时约束瓶颈从理论峰值计算转向输送功率、冷却和运营效率？在此框架下，系统优化——潜在KV缓存压缩、稀疏或重度压缩的注意力、量化、路由和难度自适应推理——不仅仅是局部工程技巧。它们是通过降低每令牌FLOPs、每令牌焦耳、内存流量或利用率损失（在固定的q*和s*下）来影响能量到令牌的杠杆。因此，我们呼吁推理论文和基准测试在报告准确率和延迟的同时，也报告焦耳/令牌、活跃约束瓶颈、经PUE调整的输送功率以及经利用率调整的令牌输出。

查看原文

查看缓存全文

缓存时间: 2026/05/14 04:17

论文页面 - 观点：LLM推理应被评估为能量到令牌的生产

来源：https://huggingface.co/papers/2605.11733

摘要

LLM推理应在计算、功耗、冷却和运营效率的约束下，被评估为能量到令牌的生产，这需要超越传统准确性和延迟指标的新度量标准。

LLM推理目前仍主要被当作模型或软件问题来评估：准确性、延迟、吞吐量和硬件利用率。这是不完整的。在部署规模下，相关产出是在有效计算、数据中心交付功率、冷却能力、PUE (https://huggingface.co/papers?q=PUE) 和利用率等联合约束下，经质量条件化的令牌。我们认为，机器学习社区应将推理视为能量到令牌的生产 (https://huggingface.co/papers?q=energy-to-token%20production)。我们用量纲一致的令牌生产函数 (https://huggingface.co/papers?q=Token%20Production%20Function) 形式化这一观点，其中令牌速率同时受每令牌计算量和每令牌能量上限的约束。不同提供商列出的API价格差异超过一个数量级，但我们仅将价格离散性作为方向性参考，而非边际成本的因果证据。核心物理问题在于：在固定的质量和服务目标下，何时约束条件从理论峰值计算转向交付功率 (https://huggingface.co/papers?q=delivered%20power)、冷却和运营效率？在这一框架下，系统优化——潜在KV缓存压缩 (https://huggingface.co/papers?q=latent%20KV-cache%20compression)、稀疏或重度压缩注意力、量化 (https://huggingface.co/papers?q=quantization)、路由 (https://huggingface.co/papers?q=routing) 以及难度自适应推理 (https://huggingface.co/papers?q=difficulty-adaptive%20reasoning)——不仅仅是局部工程技巧。它们是能量到令牌的杠杆，因为在固定 $(q^*, s^*)$ 下，它们能减少每令牌FLOPs (https://huggingface.co/papers?q=FLOPs%2Ftoken)、每令牌焦耳数 (https://huggingface.co/papers?q=joules%2Ftoken)、内存流量或利用率损失。因此，我们呼吁推理论文和基准在报告准确性和延迟的同时，也报告每令牌焦耳数 (https://huggingface.co/papers?q=Joules%2Ftoken)、活动绑定约束、经PUE (https://huggingface.co/papers?q=PUE) 调整的交付功率 (https://huggingface.co/papers?q=delivered%20power) 以及经利用率调整的令牌输出 (https://huggingface.co/papers?q=utilization-adjusted%20token%20output)。

查看arXiv页面 (https://arxiv.org/abs/2605.11733) 查看PDF (https://arxiv.org/pdf/2605.11733) 项目页面 (https://dominic789654.github.io/energy-to-token/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.11733)

在你的代理中获取这篇论文：

hf papers read 2605.11733

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.11733 以从本页面链接。

引用本论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.11733 以从本页面链接。

引用本论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.11733 以从本页面链接。

包含本论文的收藏0

没有收藏包含此论文

将这篇论文添加到收藏 (https://huggingface.co/new-collection) 以从本页面链接。

观点：LLM推理应当以能量到令牌的生产来评估

论文页面 - 观点：LLM推理应被评估为能量到令牌的生产

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的 Spaces0

包含本论文的收藏0

相似文章

迈向资源高效的大语言模型：蒸馏管道的端到端能耗核算

EnergyLens: 面向多GPU大语言模型推理优化的预测性能耗感知探索

并非所有Token都同等重要：通过强化学习中的Token重要性实现高效LLM推理

吐槽：别再说什么LLM只是“下一个词预测器”了。

如果你只是自己使用模型而不对外提供服务，vLLM 真的值得用吗？

提交意见反馈