实测Jetson Nano跑Llama2:端侧大模型推理的现实与幻想

本文最后更新于 2026年4月9日 上午

实测Jetson Nano跑Llama2:端侧大模型推理的现实与幻想


“让机器人在端侧跑个大模型”——这大概是这两年最吸引眼球的嵌入式AI概念。

我实测了在Jetson Nano(8GB版本)上跑Llama2 7B量化版,把真实数字摆出来,给想走这条路的同学一个参考。

硬件配置

组件 规格
GPU NVIDIA Maxwell @ 921MHz
内存 4GB(Nano的8GB版本)
存储 64GB eMMC + 外接SSD
系统 JetPack 4.6.1 / CUDA 10.2

Nano 的 GPU 算力是 472 GFLOPS,对比一下:RTX 4090 是 82.6 TFLOPS,差了约175倍。

模型选择

跑了三个版本,结果差异巨大:

模型 量化方式 参数量 内存占用 Token/s
Llama2 7B FP16 14GB ❌ 跑不了
Llama2 7B INT4(GPTQ) 3.9GB 3.9GB + 推理开销 0.8 tok/s
TinyLlama 1.1B FP16 2.2GB 2.5GB 12 tok/s

结论很清楚:Nano 跑 7B 模型不是不行,是慢到没法用

0.8 Token/s 是什么概念?

Llama2 生成一个完整的回答(假设100个token),需要 125秒。对话体验约等于你问一句话,它用两分钟回答你。

这对于:

  • ❌ 对话机器人 — 体验灾难
  • ❌ 实时交互 — 完全不可能
  • ✅ 工业质检离线分析 — 可以接受(后台跑,不要求实时)
  • ✅ 巡检机器人任务规划 — 可以等,但很长

实测场景:机器人任务规划

给 TinyLlama 装了 LangChain,接到机器人控制系统:

1
用户指令:"检查3号车间的所有配电柜温度"

TinyLlama 解析成结构化指令:

1
2
3
1. 移动到配电柜A → 读取温度传感器 → 记录
2. 移动到配电柜B → 读取温度传感器 → 记录
3. 如果温度>45℃,触发告警

这个场景下,12 token/s 的速度勉强能接受,一条指令解析大约3-5秒。

真正的瓶颈

不是算力,是 内存带宽

Nano 的 GPU 有 472 GFLOPS,但内存带宽只有 25.6 GB/s。大模型推理是内存密集型任务,带宽不够就是等内存搬运,GPU算力用不上。

这也是为什么量化有效——INT4 把模型大小压缩到 1/4,内存带宽压力骤降。

下一步:Orin NX

如果你真的想跑 7B 模型,至少上 Orin NX(内存带宽 102 GB/s,算力 73 TOPS),或者直接 Orin AGX(855 TOPS)。

但那时候问题就变成:功耗了。

设备 功耗 7B INT4 推理
Jetson Nano 10-15W 0.8 tok/s ❌
Jetson Orin NX 15-25W 25 tok/s ✅
Jetson Orin AGX 15-60W 60 tok/s ✅

安河桥观点

端侧大模型的方向是对的,但 Jetson Nano 不是那个答案。它是给学习和实验用的板子,不是产品级推理平台。

如果你的目标是:

  • 学习端侧部署 → Nano够用
  • 原型验证 → Nano凑合
  • 产品落地 → 请上 Orin 系列,或者考虑更专用的端侧推理芯片(瑞芯微RK3588、算能SOM等)

实测数据均来自真实硬件测试,测试代码已开源


实测Jetson Nano跑Llama2:端侧大模型推理的现实与幻想
https://www.huahuaguonai.com/2026/04/09/jetson-nano-llm-realtime-robot/
作者
安河桥工作室
发布于
2026年4月9日
更新于
2026年4月9日
许可协议