配置和模型关系
| 硬件类型 | 显存容量 | 模型推荐 | 混合推理(可用内存+显存最低容量) | 补充说明 | ||
| CPU | 8B Q4 | 4G | CPU支持AVX 512指令集, CPU推理速度可以再快30%~40% |
|||
| GPU | 4G | 8B Q4 | 32B Q2 | 4G | 8G | |
| GPU | 6G | 8B Q4 | 32B Q2 | 4G | 8G | |
| GPU | 8G | 32B Q4 | 16G | |||
| GPU | 12G | 32B Q4 | 16G | |||
| GPU | 16G | 32B Q4 | 16G | |||
| GPU | 24G | 32B Q4 | 32B Q8 | 16G | 32G | |
| GPU | 40G | 70B Q4 | 35G | |||