macOS系统32G显存 Claude Code 用本地大模型的实测速度对比

2026-05-11

#macOS #AI

1. 引言

在 macOS 系统，配置为 32G 显存（可用 23.0 GB），利用 oMLX 做本地大模型管理端，在 Claude Code 里问「你好」，给出本地大模型的实测响应速度对比。

模型	响应速度	模型大小	提示词处理平均速度	Token 生成平均速度
Qwen3.5-27B-4bit	3m 52s	14.98 GB	103.6 tok/s	15.5 tok/s
Qwen3.5-9B-MLX-4bit	1m 5s	5.57 GB	383.7 tok/s	46.8 tok/s
Qwen3.5-9B-OptiQ-4bit	1m 4s	6.63 GB	384.2 tok/s	36.7 tok/s
DeepSeek-R1-0528-Qwen3-8B-MLX-4bit	31s	4.30 GB	369.9 tok/s	44.8 tok/s
Qwen3.5-4B-MLX-4bit	38s	2.85 GB	670.6 tok/s	66.1 tok/s

27B 直接排除，本地用 27B 太慢（3分52秒响应），日常写代码等不起。

推荐排序：

Claude Code三种模式的实际建议：