Ollama 拥抱 MLX： macOS 本地推理迎来 93% 速度飞跃

2026-05-14

1. 引言

2026 年 3 月底，Ollama 发布了 0.19 版本，首次引入 MLX 后端——这是 Apple 专为 Apple Silicon 打造的机器学习框架。

这一改变，让本地大模型推理在 macOS 上获得了前所未有的性能提升。

Ollama 此前在 macOS 上使用 llama.cpp 的 Metal 后端，本质上是把 GPU 当作独立加速卡——即使 CPU 和 GPU 共享同一块物理内存，数据仍要在"CPU 侧"和"GPU 侧"之间来回拷贝。这种拷贝浪费了大量时间。

MLX 原生理解统一内存架构（Unified Memory）：张量生活在单一地址空间，CPU 和 GPU 直接操作同一份数据，零拷贝。对于大语言模型这种内存带宽瓶颈型任务，消除拷贝就等于释放速度。

指标	Metal 后端 (0.18)	MLX 后端 (0.19)	提升
Prefill（提示词处理）	1,154 tok/s	1,810 tok/s	1.6x
Decode（文本生成）	58 tok/s	112 tok/s	~1.93x (93%)

测试模型：Qwen3.5-35B-A3B，硬件：M4 Max 64GB。

一位开发者的实际体验：“我昨天用 M4 Max 跑 Qwen3.5 是 58 tok/s，今天启用 MLX 后是 112。同一个模型、同一台机器、同一个 Prompt。只改了一个环境变量。”

目前 Ollama MLX 后端已支持或计划支持的模型：

Qwen3.6 系列（当前已支持，包括 9B、35B-A3B MoE，含 coding-nvfp4 量化版）: https://ollama.com/library/qwen3.6 ，不过只是 Text
Gemma 4 系列（0.20 版本已加入，支持 MTP speculative decoding，coding 任务可再翻倍）
未来将逐步扩展更多架构

官方博客中明确提到：“We are actively working to support future models.” 每个架构需要专门的 MLX 实现，按优先级逐一推进。

MLX 后端要求 32GB 以上统一内存，这意味着：

# 确保 Ollama ≥ 0.19
ollama --version

# 停止并重启，启用 MLX 后端
osascript -e 'quit app "Ollama"'
OLLAMA_MLX=1 ollama serve

# 跑模型
ollama run qwen3.5:35b-a3b

如果运行的是 0.30 预发行版（当前最新），MLX 后端已针对 Apple Silicon 直接支持，无需额外环境变量。