macOS系统用 oMLX 在本地运行大模型

2026-05-02
#macOS #AI

1 引言

相比于 ollama、LM Studio等,macOS系统使用 oMLX 优化,本地大模型的响应速度明显提高。

正如官网宣传:

oMLX: macOS-native MLX server with smart caching. Claude Code, OpenClaw, and Cursor respond in 5 seconds, not 90.

2 配置概览

  • 总内存:32 GB;可用显存:23.0 GB(系统内核及后台进程保留约 9 GB)
  • 总内存:64 GB;可用显存:50.4 GB(系统内核及后台进程保留约 13.6 GB)

3 环境安装

4 资源预估

总原则:模型不超过可用显存。

推荐 Hugging Face 专为 Apple Silicon 优化的 oMLX 格式的 mlx-community 系列模型,比如:

模型名称 大小 GB 精简特色 其他
DeepSeek-R1-0528-Qwen3-8B-MLX-8bit ~4 推理增强版 Qwen3 8B,8-bit 量化,带 DeepSeek 强化学习蒸馏 ⚠️ 原 mlx-community 仓库已下架;可在 lmstudio-community 社区找到等价版本;Qwen3 8B BF16 约 16 GB,8-bit 后约 4 GB
DeepSeek-R1-Distill-Llama-70B-4bit ~39.5 Llama 70B 经过 DeepSeek R1 推理轨迹蒸馏,带思考链能力;4-bit 量化 8 文件分片,BF16 源约 140 GB → 4-bit 量化后约 39.5 GB;需 48 GB+ 内存的 Mac;社区版本在 mlx-community 可用
GLM-4.7-Flash-MLX-8bit ~7.5 智谱 GLM-4.7-Flash 的 8-bit MLX 量化,支持多语言 (中英),8.43B 参数量,200K 上下文窗口 实际路径:lmstudio-community/GLM-4.7-Flash-MLX-8bit;需 ~8 GB 内存;适合对话/多语言场景
Huihui-Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-mlx-8bit ~22 Qwen3.6-35B-A3B (MoE: 35B总/3B激活) + Claude 4.7 Opus 推理蒸馏,去默认化 (abliterated) 版本 8-bit 量化;Qwen3.6-35B-A3B BF16 源约 70 GB;需 32 GB+ 内存的 Mac;社区仓库 mlx-community 中可能已下架,可查看 lmstudio-community 找等价版本
Llama-3.3-70B-Instruct-4bit ~39 Meta Llama 3.3 70B 的 4-bit MLX 量化;通用对话,8 语言支持 8 文件分片,与 DeepSeek-R1-Distill-Llama-70B 类似结构;需 48 GB+ 内存;社区版本 mlx-community 中可用(约 27 点赞,4.5k 下载)
MLX-Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-8bit ~28 Claude 4.6 Opus 推理轨迹蒸馏到 Qwen3.5-35B-A3B (MoE),8-bit 量化;带 deliberative 推理模式 源 BF16 约 70 GB → 8-bit 后约 28 GB;需 32 GB+ 内存;作者 jackrong,社区仓库需通过 mlx-lm 加载
Phi-4-reasoning-plus-MLX-4bit ~3.5 微软 Phi-4 推理增强版,带结构化思考链 (Thought + Solution),4-bit 量化 实际路径:lmstudio-community/Phi-4-reasoning-plus-MLX-4bit;Phi-3 架构;小模型,适合低内存 Mac (8-16 GB);推理能力强,适合数学/代码
Qwen2.5-72B-Instruct-4bit ~42.2 通义千问 Qwen2.5-72B 的 4-bit MLX 量化;通用对话 8 文件分片,源 BF16 约 144 GB → 4-bit 后约 42 GB;需 48 GB+ 内存;社区版本 mlx-community 中可用
Qwen2.5-Coder-32B-Instruct-MLX-8bit ~16 通义千问代码专家版 32B 的 8-bit 量化;代码生成/补全专用优化 实际路径:lmstudio-community/Qwen2.5-Coder-32B-Instruct-MLX-8bit;8-bit 量化,源 BF16 约 64 GB;需 32 GB 内存;适合编程场景
Qwen3-Coder-30B-A3B-Instruct-MLX-4bit ~15 通义千问 Qwen3-Coder MoE 架构(30B 总参/3B 激活),4-bit 量化;代码能力超强 实际路径:lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit;MoE 架构省内存;需 32 GB 内存;25 点赞,214k 下载,非常活跃
Qwen3-Coder-Next-MLX-4bit ~30+ 通义千问 Qwen3-Next 代码模型,4-bit 量化;新一代架构 实际路径:lmstudio-community/Qwen3-Coder-Next-MLX-4bit;Qwen3-Next 架构 (Qwen3NextForCausalLM);需 48 GB 内存;250k 下载,27 个点赞,最活跃社区模型之一
Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-6bit ~20 Claude 4.6 Opus 推理蒸馏到 Qwen3.5-27B (MoE),6-bit 量化;Deliberative reasoning 推理模式 作者 BeastCode;源 BF16 约 56 GB → 6-bit 后约 20 GB (5 文件分片);需 32 GB 内存 (64 GB 推荐);M4 Pro 上约 10-11 tok/s;3/3 推理挑战全通过
Qwen3.6-35B-A3B-4bit ~18 通义千问 Qwen3.6-35B-A3B (MoE) 的 4-bit 量化;多模态视觉能力 (支持图片输入/OCR) 使用 mlx-vlm 加载;MoE 架构 (35B 总/3B 激活);110k+ 下载;18 GB,适合 24-32 GB 内存的 Mac;支持文本+图片
gemma-4-31b-it-4bit ~18 Google Gemma 4 系统,31B 参数,4-bit 量化;多模态交互 (图片/文本) 使用 mlx-vlm 加载;工具调用能力;39k 下载;18 GB,适合 24-32 GB 内存的 Mac;Google 官方团队原模型
gpt-oss-20b-MXFP4-Q8 ~12 OpenAI GPT-oss-20B 的 MXFP4 量化版 (Q8 格式);混合精度量化 使用 mlx-lm 加载;MXFP4 混合精度格式,精度与体积的平衡;20B 参数;16-24 GB 内存即可运行

关键总结

  • 最小内存需求 (8 GB Mac): Phi-4-reasoning-plus-MLX-4bit (~3.5 GB)、DeepSeek-R1-0528-Qwen3-8B-MLX-8bit (~4 GB)
  • 中等内存 (24-32 GB Mac): Qwen3-Coder-30B-A3B-4bit (~15 GB)、Qwen3.6-35B-A3B-4bit (~18 GB)、gemma-4-31b-it-4bit (~18 GB)、gpt-oss-20b-MXFP4-Q8 (~12 GB)
  • 大内存 (48 GB+ Mac): 70B 系列 (~39-42 GB)、Llama-3.3-70B-Instruct-4bit
  • 多模态 (支持图片): Qwen3.6-35B-A3B-4bit、gemma-4-31b-it-4bit(需 mlx-vlm
  • 推理/思考链最强: DeepSeek-R1-Distill-Llama-70B、Qwen3.5-27B-Claude-Opus-Distilled、Phi-4-reasoning-plus

参考资料