树莓派5跑Llama3.2:端侧大模型推理实测
本文最后更新于 2026年4月10日 晚上
树莓派5跑Llama3.2:端侧大模型推理实测
之前测试Jetson Nano跑Llama2,效果并不理想。这次换用树莓派5,看看ARM Cortex-A76架构能否胜任端侧大模型推理。
测试环境
- 硬件: 树莓派5 (4GB)
- 模型: Llama3.2-1B (INT4量化版)
- 框架: llama.cpp
- 系统: Raspberry Pi OS 64-bit
性能数据
| 指标 | 数值 |
|---|---|
| 首次推理延迟 | 12.3s |
| 生成速度 | 4.2 tokens/s |
| 内存占用 | 2.8GB |
| 峰值功耗 | 7.2W |
对比Jetson Nano的1.8 tokens/s,树莓派5的4.2 tokens/s有明显优势。Cortex-A76的SIMD加速功不可没。
能用吗?
能用的场景:
- 离线问答机器人
- 本地文本分类
- 简单的代码补全
不太行的场景:
- 实时对话(有明显延迟感)
- 长文本生成
- 多轮对话(内存不够)
结论
树莓派5跑1B参数模型基本可用,但别期待太好的体验。如果要更好的效果,建议上8GB版本,或者等后续优化。
对于嵌入式工程师来说,这个性能已经足够做一些边缘AI原型验证了。
树莓派5跑Llama3.2:端侧大模型推理实测
https://www.huahuaguonai.com/2026/04/10/raspberry-pi5-llama32-edge-ai/