macOS系统32G显存 Claude Code 用本地大模型的实测速度对比
1. 引言
在 macOS 系统,配置为 32G 显存(可用 23.0 GB),利用 oMLX 做本地大模型管理端,在 Claude Code 里问「你好」,给出本地大模型的实测响应速度对比。
2. 实测速度对比
| 模型 | 响应速度 | 模型大小 | 提示词处理平均速度 | Token 生成平均速度 |
|---|---|---|---|---|
| Qwen3.5-27B-4bit | 3m 52s | 14.98 GB | 103.6 tok/s | 15.5 tok/s |
| Qwen3.5-9B-MLX-4bit | 1m 5s | 5.57 GB | 383.7 tok/s | 46.8 tok/s |
| Qwen3.5-9B-OptiQ-4bit | 1m 4s | 6.63 GB | 384.2 tok/s | 36.7 tok/s |
| DeepSeek-R1-0528-Qwen3-8B-MLX-4bit | 31s | 4.30 GB | 369.9 tok/s | 44.8 tok/s |
| Qwen3.5-4B-MLX-4bit | 38s | 2.85 GB | 670.6 tok/s | 66.1 tok/s |
3. 建议
27B 直接排除,本地用 27B 太慢(3分52秒响应),日常写代码等不起。
推荐排序:
| 排名 | 模型 | 理由 |
|---|---|---|
| 1 | Qwen3.5-9B-MLX-4bit | 性价比之王:1分4秒响应,384 tok/s,token 生成更快 |
| 2 | DeepSeek-R1-0528-Qwen3-8B-MLX-4bit | 31秒响应,推理能力强,要复杂代码时切它 |
| 3 | Qwen3.5-4B-MLX-4bit | 38秒+最快token生成,小脚本/简单任务秒回 |
Claude Code三种模式的实际建议:
- Sonnet:均衡,代码/分析/推理首选。主模型用 Qwen3.5-9B-MLX-4bit,又够用又够快。
- Opus:最强推理,复杂问题/深度思考时用,又慢又贵。遇到复杂推理切 DeepSeek R1 4bit。
- Haiku:快、便宜,日常问答/格式化任务。小任务 用 Qwen3.5-4B-MLX-4bit。