记录分享在RK1820协处理器上探索语音交互

double33 · 2026-03-31 14:18:46

一个完全不懂LLM的哞哞，硬着头皮搞AI语音交互的探索之路

一、跑demo:
Qwen2.5最多只能跑3B，再大的话内存不够加载不起来，首词响应时间（TTFT）：87.316 ms；生成速度：94.14 Tokens/s。
Qwen3 1.7B可以，4B跑不起来。
实际跑起来回答速度还是非常快的。

谈谈功耗：
1、只加载，不推理功耗大概有4W多。

2、推理时，有12W多，不过NPU好像还没满负荷，所以实际还可能更高。

....更新待续

哇酷®开发者社区(WhyCan® Forum)