树莓派5跑Llama3.2：端侧大模型推理实测

本文最后更新于 2026年4月10日晚上

之前测试Jetson Nano跑Llama2，效果并不理想。这次换用树莓派5，看看ARM Cortex-A76架构能否胜任端侧大模型推理。

测试环境

对比Jetson Nano的1.8 tokens/s，树莓派5的4.2 tokens/s有明显优势。Cortex-A76的SIMD加速功不可没。

能用的场景：

不太行的场景：

树莓派5跑1B参数模型基本可用，但别期待太好的体验。如果要更好的效果，建议上8GB版本，或者等后续优化。

对于嵌入式工程师来说，这个性能已经足够做一些边缘AI原型验证了。

嵌入式AI

#大模型 #端侧AI #树莓派 #Llama

树莓派5跑Llama3.2：端侧大模型推理实测

https://www.huahuaguonai.com/2026/04/10/raspberry-pi5-llama32-edge-ai/

作者

安河桥工作室

发布于

2026年4月10日

更新于

2026年4月10日

许可协议