树莓派5跑Llama3.2:端侧大模型推理实测

本文最后更新于 2026年4月10日 晚上

树莓派5跑Llama3.2:端侧大模型推理实测

之前测试Jetson Nano跑Llama2,效果并不理想。这次换用树莓派5,看看ARM Cortex-A76架构能否胜任端侧大模型推理。

测试环境

  • 硬件: 树莓派5 (4GB)
  • 模型: Llama3.2-1B (INT4量化版)
  • 框架: llama.cpp
  • 系统: Raspberry Pi OS 64-bit

性能数据

指标 数值
首次推理延迟 12.3s
生成速度 4.2 tokens/s
内存占用 2.8GB
峰值功耗 7.2W

对比Jetson Nano的1.8 tokens/s,树莓派5的4.2 tokens/s有明显优势。Cortex-A76的SIMD加速功不可没。

能用吗?

能用的场景:

  • 离线问答机器人
  • 本地文本分类
  • 简单的代码补全

不太行的场景:

  • 实时对话(有明显延迟感)
  • 长文本生成
  • 多轮对话(内存不够)

结论

树莓派5跑1B参数模型基本可用,但别期待太好的体验。如果要更好的效果,建议上8GB版本,或者等后续优化。

对于嵌入式工程师来说,这个性能已经足够做一些边缘AI原型验证了。


树莓派5跑Llama3.2:端侧大模型推理实测
https://www.huahuaguonai.com/2026/04/10/raspberry-pi5-llama32-edge-ai/
作者
安河桥工作室
发布于
2026年4月10日
更新于
2026年4月10日
许可协议