Ollama 拥抱 MLX: macOS 本地推理迎来 93% 速度飞跃
1. 引言
2026 年 3 月底,Ollama 发布了 0.19 版本,首次引入 MLX 后端——这是 Apple 专为 Apple Silicon 打造的机器学习框架。
这一改变,让本地大模型推理在 macOS 上获得了前所未有的性能提升。
2. 为什么 MLX 比 Metal 快?
Ollama 此前在 macOS 上使用 llama.cpp 的 Metal 后端,本质上是把 GPU 当作独立加速卡——即使 CPU 和 GPU 共享同一块物理内存,数据仍要在"CPU 侧"和"GPU 侧"之间来回拷贝。这种拷贝浪费了大量时间。
MLX 原生理解统一内存架构(Unified Memory):张量生活在单一地址空间,CPU 和 GPU 直接操作同一份数据,零拷贝。对于大语言模型这种内存带宽瓶颈型任务,消除拷贝就等于释放速度。
3. 实测数据:近乎翻倍
| 指标 | Metal 后端 (0.18) | MLX 后端 (0.19) | 提升 |
|---|---|---|---|
| Prefill(提示词处理) | 1,154 tok/s | 1,810 tok/s | 1.6x |
| Decode(文本生成) | 58 tok/s | 112 tok/s | ~1.93x (93%) |
测试模型:Qwen3.5-35B-A3B,硬件:M4 Max 64GB。
一位开发者的实际体验:“我昨天用 M4 Max 跑 Qwen3.5 是 58 tok/s,今天启用 MLX 后是 112。同一个模型、同一台机器、同一个 Prompt。只改了一个环境变量。”
4. 支持模型
目前 Ollama MLX 后端已支持或计划支持的模型:
- Qwen3.6 系列(当前已支持,包括 9B、35B-A3B MoE,含 coding-nvfp4 量化版): https://ollama.com/library/qwen3.6 ,不过只是 Text
- Gemma 4 系列(0.20 版本已加入,支持 MTP speculative decoding,coding 任务可再翻倍)
- 未来将逐步扩展更多架构
官方博客中明确提到:“We are actively working to support future models.” 每个架构需要专门的 MLX 实现,按优先级逐一推进。
5. 硬件门槛
MLX 后端要求 32GB 以上统一内存,这意味着:
- M1/M2 基础款(8GB/16GB)→ 不支持
- M3 Pro / M4 Pro(36GB+)→ 支持,约 60-80% 提升
- M4 Max / M5 Max(64GB+)→ 支持,约 90-95%+ 提升
- M5 Max(128GB)→ 最快本地推理体验
6. 如何启用
# 确保 Ollama ≥ 0.19
ollama --version
# 停止并重启,启用 MLX 后端
osascript -e 'quit app "Ollama"'
OLLAMA_MLX=1 ollama serve
# 跑模型
ollama run qwen3.5:35b-a3b
如果运行的是 0.30 预发行版(当前最新),MLX 后端已针对 Apple Silicon 直接支持,无需额外环境变量。
7. 参考链接
- Ollama 官方博客: https://ollama.com/blog/mlx
- 启用教程(dev.to): https://dev.to/alanwest/ollama-just-got-93-faster-on-mac-heres-how-to-enable-it-3gce
- 深度实测(byteiota): https://byteiota.com/ollama-mlx-integration-93-faster-ai-on-apple-silicon/
- 基准对比(willitrunai): https://willitrunai.com/blog/mlx-vs-ollama-apple-silicon-benchmarks
- Ollama GitHub Releases: https://github.com/ollama/ollama/releases
- 9to5macOS 报道: https://9to5mac.com/2026/03/31/ollama-adopts-mlx-for-faster-ai-performance-on-apple-silicon/
- Ars Technica 报道: https://arstechnica.com/apple/2026/03/running-local-models-on-macs-gets-faster-with-ollamas-mlx-support/