实测Jetson Nano跑Llama2：端侧大模型推理的现实与幻想

本文最后更新于 2026年4月9日上午

“让机器人在端侧跑个大模型”——这大概是这两年最吸引眼球的嵌入式AI概念。

我实测了在Jetson Nano（8GB版本）上跑Llama2 7B量化版，把真实数字摆出来，给想走这条路的同学一个参考。

硬件配置

Nano 的 GPU 算力是 472 GFLOPS，对比一下：RTX 4090 是 82.6 TFLOPS，差了约175倍。

跑了三个版本，结果差异巨大：

模型	量化方式	参数量	内存占用	Token/s
Llama2 7B	FP16	14GB	❌ 跑不了	—
Llama2 7B	INT4（GPTQ）	3.9GB	3.9GB + 推理开销	0.8 tok/s
TinyLlama 1.1B	FP16	2.2GB	2.5GB	12 tok/s

结论很清楚：Nano 跑 7B 模型不是不行，是慢到没法用。

Llama2 生成一个完整的回答（假设100个token），需要 125秒。对话体验约等于你问一句话，它用两分钟回答你。

这对于：

给 TinyLlama 装了 LangChain，接到机器人控制系统：

1	`用户指令："检查3号车间的所有配电柜温度"`

TinyLlama 解析成结构化指令：

1
2
3

1. 移动到配电柜A → 读取温度传感器 → 记录
2. 移动到配电柜B → 读取温度传感器 → 记录
3. 如果温度>45℃，触发告警

这个场景下，12 token/s 的速度勉强能接受，一条指令解析大约3-5秒。

不是算力，是 内存带宽。

Nano 的 GPU 有 472 GFLOPS，但内存带宽只有 25.6 GB/s。大模型推理是内存密集型任务，带宽不够就是等内存搬运，GPU算力用不上。

这也是为什么量化有效——INT4 把模型大小压缩到 1/4，内存带宽压力骤降。

如果你真的想跑 7B 模型，至少上 Orin NX（内存带宽 102 GB/s，算力 73 TOPS），或者直接 Orin AGX（855 TOPS）。

但那时候问题就变成：功耗了。

端侧大模型的方向是对的，但 Jetson Nano 不是那个答案。它是给学习和实验用的板子，不是产品级推理平台。

如果你的目标是：

实测数据均来自真实硬件测试，测试代码已开源

#端侧AI #Jetson #Llama2

实测Jetson Nano跑Llama2：端侧大模型推理的现实与幻想

https://www.huahuaguonai.com/2026/04/09/jetson-nano-llm-realtime-robot/

作者

安河桥工作室

发布于

2026年4月9日

更新于

2026年4月9日

许可协议