实测Jetson Nano跑Llama2:端侧大模型推理的现实与幻想
本文最后更新于 2026年4月9日 上午
实测Jetson Nano跑Llama2:端侧大模型推理的现实与幻想
“让机器人在端侧跑个大模型”——这大概是这两年最吸引眼球的嵌入式AI概念。
我实测了在Jetson Nano(8GB版本)上跑Llama2 7B量化版,把真实数字摆出来,给想走这条路的同学一个参考。
硬件配置
| 组件 | 规格 |
|---|---|
| GPU | NVIDIA Maxwell @ 921MHz |
| 内存 | 4GB(Nano的8GB版本) |
| 存储 | 64GB eMMC + 外接SSD |
| 系统 | JetPack 4.6.1 / CUDA 10.2 |
Nano 的 GPU 算力是 472 GFLOPS,对比一下:RTX 4090 是 82.6 TFLOPS,差了约175倍。
模型选择
跑了三个版本,结果差异巨大:
| 模型 | 量化方式 | 参数量 | 内存占用 | Token/s |
|---|---|---|---|---|
| Llama2 7B | FP16 | 14GB | ❌ 跑不了 | — |
| Llama2 7B | INT4(GPTQ) | 3.9GB | 3.9GB + 推理开销 | 0.8 tok/s |
| TinyLlama 1.1B | FP16 | 2.2GB | 2.5GB | 12 tok/s |
结论很清楚:Nano 跑 7B 模型不是不行,是慢到没法用。
0.8 Token/s 是什么概念?
Llama2 生成一个完整的回答(假设100个token),需要 125秒。对话体验约等于你问一句话,它用两分钟回答你。
这对于:
- ❌ 对话机器人 — 体验灾难
- ❌ 实时交互 — 完全不可能
- ✅ 工业质检离线分析 — 可以接受(后台跑,不要求实时)
- ✅ 巡检机器人任务规划 — 可以等,但很长
实测场景:机器人任务规划
给 TinyLlama 装了 LangChain,接到机器人控制系统:
1 | |
TinyLlama 解析成结构化指令:
1 | |
这个场景下,12 token/s 的速度勉强能接受,一条指令解析大约3-5秒。
真正的瓶颈
不是算力,是 内存带宽。
Nano 的 GPU 有 472 GFLOPS,但内存带宽只有 25.6 GB/s。大模型推理是内存密集型任务,带宽不够就是等内存搬运,GPU算力用不上。
这也是为什么量化有效——INT4 把模型大小压缩到 1/4,内存带宽压力骤降。
下一步:Orin NX
如果你真的想跑 7B 模型,至少上 Orin NX(内存带宽 102 GB/s,算力 73 TOPS),或者直接 Orin AGX(855 TOPS)。
但那时候问题就变成:功耗了。
| 设备 | 功耗 | 7B INT4 推理 |
|---|---|---|
| Jetson Nano | 10-15W | 0.8 tok/s ❌ |
| Jetson Orin NX | 15-25W | 25 tok/s ✅ |
| Jetson Orin AGX | 15-60W | 60 tok/s ✅ |
安河桥观点
端侧大模型的方向是对的,但 Jetson Nano 不是那个答案。它是给学习和实验用的板子,不是产品级推理平台。
如果你的目标是:
- 学习端侧部署 → Nano够用
- 原型验证 → Nano凑合
- 产品落地 → 请上 Orin 系列,或者考虑更专用的端侧推理芯片(瑞芯微RK3588、算能SOM等)
实测数据均来自真实硬件测试,测试代码已开源