清华发布AI加速神器,单卡驾驭满血版DeepSeek R1! - 技术宅银魂 - 科技改变生活 - 万事屋

清华发布AI加速神器,单卡驾驭满血版DeepSeek R1!

这可是真厉害了,运行Deepseek R1/V3的满血Q4_K_M 版本,仅需 14GB 显存和 382GB 内存。

清华大学的kvcache.ai团队发布的ktransformer大模型加载框架v0.3 Preview,提升本地加载满血deepseek 671b的运行效率。

预填充速度性能指标27.79 倍于llama.cpp

cpu数

tokens/s

备注

32 核

54.21

2×32 核

74.362

255.26

基于优化的 AMX 混合专家内核,仅 V0.3 版本

286.55

选择性使用 6 个专家,仅 V0.3 版本

解码速度3倍于llama.cpp

cpu数

tokens/s

备注

32 核

8.73

2×32 核

11.26

13.69

选择性使用 6 个专家,仅 V0.3 版本

清华发布AI加速神器,单卡驾驭满血版DeepSeek R1!

硬件环境:

  • CPU: Intel (R) Xeon (R) Gold 6454S 1T DRAM (2 NUMA nodes)
  • GPU: 4090D 24G VRAM
  • Mem: DDR5-4800 server DRAM (1 TB)

github链接:

https://github.com/kvcache-ai/ktransformers

https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

万事屋新帖