小型LLM基准测试：Jetson Orin Nano Super 8GB - 四种功率模式 × 八种模型

Reddit r/LocalLLaMA 2026/06/02 12:56 新闻

jetson-orin-nano tiny-llms edge-ai benchmark llama-cpp power-efficiency smol-models

摘要

一项对8个小型LLM（参数规模从1.35亿到约10亿）在售价250美元的Jetson Orin Nano Super上进行的深入基准测试，涵盖四种功率模式，发现25W是帕累托最优模式，其中SmolLM2-135M达到165.1 tok/s，效率最高。

刚刚发布了一项深入的基准测试，使用llama.cpp CUDA在售价250美元的Jetson Orin Nano Super 8GB上测试了8个小型LLM（参数从1.35亿到约10亿），涵盖所有4种功率模式：7W、15W、25W和MAXN 硬件： * NVIDIA Ampere GPU - 1024个CUDA核心，32个Tensor核心 * 6核Arm Cortex-A78AE CPU @ 1.728 GHz * 8 GB LPDDR5 @ 204.8 GB/s（统一CPU+GPU - 无显存分割） * 主动风扇散热 - 每次运行时峰值结温保持≤73°C 软件栈： * JetPack R36.4.7（Ubuntu 22.04），CUDA 12.6 * llama.cpp CUDA后端，所有层在GPU上（-ngl 99） * 负载：NVIDIA aiperf — 每个组合20个请求，每个模型12个提示×生成组合 * 通过tegrastats VDD\_CPU\_GPU\_CV电源轨以500ms间隔测量功率简要方法： * 扫描范围：提示 ∈ {128, 512, 1024, 2048} tokens × 生成 ∈ {64, 128, 256} tokens × 4种功率模式 = 每个模型384个基准测试单元，共8个模型。 * 关键指标：输出tok/J = 每焦耳计算能量生成的令牌数发现： - 关键发现：25W是测试过的每个模型的帕累托最优模式。 - 比15W多36–47%的tok/s - 比15W好3–26%的输出tok/J - 甚至比MAXN（最高功率模式）好8–35%的输出tok/J - 更高的时钟不等于更高的效率。MAXN多消耗约17%的功率，只带来微弱的吞吐量提升。子10亿参数级别在25W下的亮点（ctx=2048, gen=256）： - SmolLM2-135M - 165.1 tok/s，22.6输出tok/J（套件最佳），101 MB，约5.4W - LFM2.5-350M - 115.1 tok/s，219 MB。与SmolLM2-360M（369 MB）性能相当，但体积不到一半约10亿参数级别在25W下（ctx=2048, gen=256）： - LFM2.5-1.2B：54.1 tok/s，5.26输出tok/J，698 MB - 该类中速度最快且输出tok/J最佳 - Gemma3-1B：在总tok/J上略微领先（118.5对比LFM的116.2） - 更低的功耗（6.87W对比8.46W）弥补了较慢的解码速度 - Llama3.2-1B：47.0 tok/s，4.67输出tok/J 完整的博客文章包含所有图表、热力图、延迟表格以及原始HuggingFace数据集（384个单元 × 4种模式）的链接！欢迎大家查看——如果你有Jetson，你在上面运行什么？很想知道！[博客链接](https://www.smolhub.com/posts/jetson-nano-super-benchmark-non-reasoning/)

查看原文

小型LLM基准测试：Jetson Orin Nano Super 8GB - 四种功率模式 × 八种模型

相似文章

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

MiniCPM4：面向终端设备的超高效大语言模型

在6GB RTX 4050上对20个小LLM的基准测试

@Snixtp: 针对单张 RTX 3090 的更多能效测试长文速读：- 我在单张 RTX 3090 上测试了 8 个本地大语言模型（LLM），功率限制从 100W 到 45…

OpenBMB 发布 MiniCPM5-1B 大语言模型。目前同尺寸下最强大的大语言模型之一。（在 Artificial Analysis Intelligence Index 上得分为 17.9）

提交意见反馈