这可是真厉害了,运行Deepseek R1/V3的满血Q4_K_M 版本,仅需 14GB 显存和 382GB 内存。
清华大学的kvcache.ai团队发布的ktransformer大模型加载框架v0.3 Preview,提升本地加载满血deepseek 671b的运行效率。
预填充速度性能指标27.79 倍于llama.cpp
cpu数 |
tokens/s |
备注 |
32 核 |
54.21 |
|
2×32 核 |
74.362 |
|
255.26 |
基于优化的 AMX 混合专家内核,仅 V0.3 版本 |
|
286.55 |
选择性使用 6 个专家,仅 V0.3 版本 |
解码速度3倍于llama.cpp
cpu数 |
tokens/s |
备注 |
32 核 |
8.73 |
|
2×32 核 |
11.26 |
|
13.69 |
选择性使用 6 个专家,仅 V0.3 版本 |

硬件环境:
- CPU: Intel (R) Xeon (R) Gold 6454S 1T DRAM (2 NUMA nodes)
- GPU: 4090D 24G VRAM
- Mem: DDR5-4800 server DRAM (1 TB)
github链接:
https://github.com/kvcache-ai/ktransformers
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md