Ollama 拥抱 MLX: macOS 本地推理迎来 93% 速度飞跃

1. 引言

2026 年 3 月底,Ollama 发布了 0.19 版本,首次引入 MLX 后端——这是 Apple 专为 Apple Silicon 打造的机器学习框架。

这一改变,让本地大模型推理在 macOS 上获得了前所未有的性能提升。

2. 为什么 MLX 比 Metal 快?

Ollama 此前在 macOS 上使用 llama.cpp 的 Metal 后端,本质上是把 GPU 当作独立加速卡——即使 CPU 和 GPU 共享同一块物理内存,数据仍要在"CPU 侧"和"GPU 侧"之间来回拷贝。这种拷贝浪费了大量时间。

MLX 原生理解统一内存架构(Unified Memory):张量生活在单一地址空间,CPU 和 GPU 直接操作同一份数据,零拷贝。对于大语言模型这种内存带宽瓶颈型任务,消除拷贝就等于释放速度。

3. 实测数据:近乎翻倍

指标 Metal 后端 (0.18) MLX 后端 (0.19) 提升
Prefill(提示词处理) 1,154 tok/s 1,810 tok/s 1.6x
Decode(文本生成) 58 tok/s 112 tok/s ~1.93x (93%)

测试模型:Qwen3.5-35B-A3B,硬件:M4 Max 64GB。

一位开发者的实际体验:“我昨天用 M4 Max 跑 Qwen3.5 是 58 tok/s,今天启用 MLX 后是 112。同一个模型、同一台机器、同一个 Prompt。只改了一个环境变量。”

4. 支持模型

目前 Ollama MLX 后端已支持或计划支持的模型:

  • Qwen3.6 系列(当前已支持,包括 9B、35B-A3B MoE,含 coding-nvfp4 量化版): https://ollama.com/library/qwen3.6 ,不过只是 Text
  • Gemma 4 系列(0.20 版本已加入,支持 MTP speculative decoding,coding 任务可再翻倍)
  • 未来将逐步扩展更多架构

官方博客中明确提到:“We are actively working to support future models.” 每个架构需要专门的 MLX 实现,按优先级逐一推进。

5. 硬件门槛

MLX 后端要求 32GB 以上统一内存,这意味着:

  • M1/M2 基础款(8GB/16GB)→ 不支持
  • M3 Pro / M4 Pro(36GB+)→ 支持,约 60-80% 提升
  • M4 Max / M5 Max(64GB+)→ 支持,约 90-95%+ 提升
  • M5 Max(128GB)→ 最快本地推理体验

6. 如何启用

# 确保 Ollama ≥ 0.19
ollama --version

# 停止并重启,启用 MLX 后端
osascript -e 'quit app "Ollama"'
OLLAMA_MLX=1 ollama serve

# 跑模型
ollama run qwen3.5:35b-a3b

如果运行的是 0.30 预发行版(当前最新),MLX 后端已针对 Apple Silicon 直接支持,无需额外环境变量。

7. 参考链接