观点:LLM推理应当以能量到令牌的生产来评估
摘要
本文主张,在计算、功耗、冷却和运营效率的约束下,LLM推理应当作为能量到令牌的生产来评估,并提出了如焦耳/令牌和经PUE调整的输送功率等新指标。
查看缓存全文
缓存时间: 2026/05/14 04:17
论文页面 - 观点:LLM推理应被评估为能量到令牌的生产
来源:https://huggingface.co/papers/2605.11733
摘要
LLM推理应在计算、功耗、冷却和运营效率的约束下,被评估为能量到令牌的生产,这需要超越传统准确性和延迟指标的新度量标准。
LLM推理目前仍主要被当作模型或软件问题来评估:准确性、延迟、吞吐量和硬件利用率。这是不完整的。在部署规模下,相关产出是在有效计算、数据中心交付功率、冷却能力、PUE (https://huggingface.co/papers?q=PUE) 和利用率等联合约束下,经质量条件化的令牌。我们认为,机器学习社区应将推理视为能量到令牌的生产 (https://huggingface.co/papers?q=energy-to-token%20production)。我们用量纲一致的令牌生产函数 (https://huggingface.co/papers?q=Token%20Production%20Function) 形式化这一观点,其中令牌速率同时受每令牌计算量和每令牌能量上限的约束。不同提供商列出的API价格差异超过一个数量级,但我们仅将价格离散性作为方向性参考,而非边际成本的因果证据。核心物理问题在于:在固定的质量和服务目标下,何时约束条件从理论峰值计算转向交付功率 (https://huggingface.co/papers?q=delivered%20power)、冷却和运营效率?在这一框架下,系统优化——潜在KV缓存压缩 (https://huggingface.co/papers?q=latent%20KV-cache%20compression)、稀疏或重度压缩注意力、量化 (https://huggingface.co/papers?q=quantization)、路由 (https://huggingface.co/papers?q=routing) 以及难度自适应推理 (https://huggingface.co/papers?q=difficulty-adaptive%20reasoning)——不仅仅是局部工程技巧。它们是能量到令牌的杠杆,因为在固定 (q^*, s^*) 下,它们能减少每令牌FLOPs (https://huggingface.co/papers?q=FLOPs%2Ftoken)、每令牌焦耳数 (https://huggingface.co/papers?q=joules%2Ftoken)、内存流量或利用率损失。因此,我们呼吁推理论文和基准在报告准确性和延迟的同时,也报告每令牌焦耳数 (https://huggingface.co/papers?q=Joules%2Ftoken)、活动绑定约束、经PUE (https://huggingface.co/papers?q=PUE) 调整的交付功率 (https://huggingface.co/papers?q=delivered%20power) 以及经利用率调整的令牌输出 (https://huggingface.co/papers?q=utilization-adjusted%20token%20output)。
查看arXiv页面 (https://arxiv.org/abs/2605.11733) 查看PDF (https://arxiv.org/pdf/2605.11733) 项目页面 (https://dominic789654.github.io/energy-to-token/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.11733)
在你的代理中获取这篇论文:
hf papers read 2605.11733
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.11733 以从本页面链接。
引用本论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.11733 以从本页面链接。
引用本论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.11733 以从本页面链接。
包含本论文的收藏0
没有收藏包含此论文
将这篇论文添加到收藏 (https://huggingface.co/new-collection) 以从本页面链接。
相似文章
迈向资源高效的大语言模型:蒸馏管道的端到端能耗核算
本文提出了一种针对大语言模型蒸馏管道的端到端能耗核算框架,通过分阶段测量能耗并构建能耗-质量帕累托前沿,揭示了此前被忽视的教师模型侧成本。
EnergyLens: 面向多GPU大语言模型推理优化的预测性能耗感知探索
EnergyLens是一个端到端的框架,用于多GPU大语言模型推理的预测性能耗感知优化,在Llama3和Qwen3-MoE上验证,平均绝对百分比误差在9.25%至13.19%之间,并揭示了不同配置之间显著的能耗差异。
并非所有Token都同等重要:通过强化学习中的Token重要性实现高效LLM推理
本文提出了一个强化学习框架,通过建模Token重要性来选择性地对不重要的Token进行惩罚,同时保留关键推理步骤,采用重要性感知奖励和动态长度奖励来减少冗余,在不牺牲准确性的前提下提高效率。
吐槽:别再说什么LLM只是“下一个词预测器”了。
对LLM“只是下一个词预测器”这一过于简单化的说法提出批判,认为大规模预测会诱导出有用的表示和能力,并且这种轻率的否定混淆了目标与学习系统。
如果你只是自己使用模型而不对外提供服务,vLLM 真的值得用吗?
一名用户讨论了在 AMD 硬件上进行本地单用户推理时,使用 vLLM 与 llama.cpp 之间的权衡,质疑在非企业级环境中 vLLM 的性能优势是否足以弥补其带来的复杂性。