一个完全不懂LLM的哞哞,硬着头皮搞AI语音交互的探索之路
一、跑demo:
Qwen2.5最多只能跑3B,再大的话内存不够加载不起来,首词响应时间(TTFT):87.316 ms;生成速度:94.14 Tokens/s。
Qwen3 1.7B可以,4B跑不起来。
实际跑起来回答速度还是非常快的。
谈谈功耗:
1、只加载,不推理功耗大概有4W多。
2、推理时,有12W多,不过NPU好像还没满负荷,所以实际还可能更高。


....更新待续
离线