小型LLM基准测试:Jetson Orin Nano Super 8GB - 四种功率模式 × 八种模型

Reddit r/LocalLLaMA 新闻

摘要

一项对8个小型LLM(参数规模从1.35亿到约10亿)在售价250美元的Jetson Orin Nano Super上进行的深入基准测试,涵盖四种功率模式,发现25W是帕累托最优模式,其中SmolLM2-135M达到165.1 tok/s,效率最高。

刚刚发布了一项深入的基准测试,使用llama.cpp CUDA在售价250美元的Jetson Orin Nano Super 8GB上测试了8个小型LLM(参数从1.35亿到约10亿),涵盖所有4种功率模式:7W、15W、25W和MAXN 硬件: * NVIDIA Ampere GPU - 1024个CUDA核心,32个Tensor核心 * 6核Arm Cortex-A78AE CPU @ 1.728 GHz * 8 GB LPDDR5 @ 204.8 GB/s(统一CPU+GPU - 无显存分割) * 主动风扇散热 - 每次运行时峰值结温保持≤73°C 软件栈: * JetPack R36.4.7(Ubuntu 22.04),CUDA 12.6 * llama.cpp CUDA后端,所有层在GPU上(-ngl 99) * 负载:NVIDIA aiperf — 每个组合20个请求,每个模型12个提示×生成组合 * 通过tegrastats VDD\_CPU\_GPU\_CV电源轨以500ms间隔测量功率 简要方法: * 扫描范围:提示 ∈ {128, 512, 1024, 2048} tokens × 生成 ∈ {64, 128, 256} tokens × 4种功率模式 = 每个模型384个基准测试单元,共8个模型。 * 关键指标:输出tok/J = 每焦耳计算能量生成的令牌数 发现: - 关键发现:25W是测试过的每个模型的帕累托最优模式。 - 比15W多36–47%的tok/s - 比15W好3–26%的输出tok/J - 甚至比MAXN(最高功率模式)好8–35%的输出tok/J - 更高的时钟不等于更高的效率。MAXN多消耗约17%的功率,只带来微弱的吞吐量提升。 子10亿参数级别在25W下的亮点(ctx=2048, gen=256): - SmolLM2-135M - 165.1 tok/s,22.6输出tok/J(套件最佳),101 MB,约5.4W - LFM2.5-350M - 115.1 tok/s,219 MB。与SmolLM2-360M(369 MB)性能相当,但体积不到一半 约10亿参数级别在25W下(ctx=2048, gen=256): - LFM2.5-1.2B:54.1 tok/s,5.26输出tok/J,698 MB - 该类中速度最快且输出tok/J最佳 - Gemma3-1B:在总tok/J上略微领先(118.5对比LFM的116.2) - 更低的功耗(6.87W对比8.46W)弥补了较慢的解码速度 - Llama3.2-1B:47.0 tok/s,4.67输出tok/J 完整的博客文章包含所有图表、热力图、延迟表格以及原始HuggingFace数据集(384个单元 × 4种模式)的链接!欢迎大家查看——如果你有Jetson,你在上面运行什么?很想知道![博客链接](https://www.smolhub.com/posts/jetson-nano-super-benchmark-non-reasoning/)
查看原文

相似文章

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。

MiniCPM4:面向终端设备的超高效大语言模型

Papers with Code Trending

MiniCPM4 是一款专为终端设备设计的高效大语言模型,通过稀疏注意力、数据筛选、训练算法和推理系统等方面的创新,在0.5B和8B参数版本上实现了强大性能。

在6GB RTX 4050上对20个小LLM的基准测试

Reddit r/LocalLLaMA

对20个为6GB GPU量化的小LLM的详细基准测试,测量了不同上下文长度下的速度和VRAM使用情况,并对工具使用和指令遵循进行了定性探针。该报告旨在帮助拥有中等硬件的用户为本地私有的自动化任务选择模型。