macOS系统32G显存 Claude Code 用本地大模型的实测速度对比

2026-05-11
#macOS #AI

1. 引言

在 macOS 系统,配置为 32G 显存(可用 23.0 GB),利用 oMLX 做本地大模型管理端,在 Claude Code 里问「你好」,给出本地大模型的实测响应速度对比。

2. 实测速度对比

模型 响应速度 模型大小 提示词处理平均速度 Token 生成平均速度
Qwen3.5-27B-4bit 3m 52s 14.98 GB 103.6 tok/s 15.5 tok/s
Qwen3.5-9B-MLX-4bit 1m 5s 5.57 GB 383.7 tok/s 46.8 tok/s
Qwen3.5-9B-OptiQ-4bit 1m 4s 6.63 GB 384.2 tok/s 36.7 tok/s
DeepSeek-R1-0528-Qwen3-8B-MLX-4bit 31s 4.30 GB 369.9 tok/s 44.8 tok/s
Qwen3.5-4B-MLX-4bit 38s 2.85 GB 670.6 tok/s 66.1 tok/s

3. 建议

27B 直接排除,本地用 27B 太慢(3分52秒响应),日常写代码等不起。

推荐排序:

排名 模型 理由
1 Qwen3.5-9B-MLX-4bit 性价比之王:1分4秒响应,384 tok/s,token 生成更快
2 DeepSeek-R1-0528-Qwen3-8B-MLX-4bit 31秒响应,推理能力强,要复杂代码时切它
3 Qwen3.5-4B-MLX-4bit 38秒+最快token生成,小脚本/简单任务秒回

Claude Code三种模式的实际建议:

  • Sonnet:均衡,代码/分析/推理首选。主模型用 Qwen3.5-9B-MLX-4bit,又够用又够快。
  • Opus:最强推理,复杂问题/深度思考时用,又慢又贵。遇到复杂推理切 DeepSeek R1 4bit。
  • Haiku:快、便宜,日常问答/格式化任务。小任务 用 Qwen3.5-4B-MLX-4bit。