# 在 Mac 跑離線 coding agent：實測可用但慢於雲端

開發者 Kyle Howells 寫了一篇實作教學，把「完全本機、可離線」的 coding agent 跑在 M1 Max（64GB 統一記憶體、macOS 15.7.7）上，登上 HN 熱門（286 分）。

- **技術棧**：用 `llama.cpp`（Metal 加速）跑 `llama-server` 開出 OpenAI 相容的 `/v1` 端點，前端 agent 用 Pi。
- **模型**：主力 Gemma 4 26B-A4B Q4（約 17GB），另測 Qwen3.6 35B-A3B（作者認為 coding 更強但較慢）。靠 MTP（多 token 預測）推測解碼把生成速度從 58.2 拉到 72.2 tokens/s（+24%），並支援圖片輸入。
- **HN 討論重點**：多數認為可用但慢於雲端 API；常被點名的替代工具有 Ollama、LM Studio、MLX。主要批評是測試只跑 128 tokens 太短、過度看 tokens/s 而非答案品質、且未提更簡單的 Ollama/LM Studio 入門路徑。賣點集中在隱私、離線可用與不依賴網路。

原始來源（Kyle Howells (ikyle.me)）：https://ikyle.me/blog/2026/how-to-setup-a-local-coding-agent-on-macos

— ai.luvai.net（繁中 AI 情報站）