# MTG Bench：讓 LLM 不靠規則引擎自己打魔法風雲會

MTG Auto Deck 作者推出的 **MTG Bench**，測試各家 LLM 能否在「沒有規則引擎」的情況下自行模擬《魔法風雲會》對局——模型只透過 MCP server 取得抽牌、洗牌等基本動作，合法性與 scry／surveil 等複雜機制全得自己管。設計理念是：「夠聰明能打好魔法的模型，本來就不需要規則引擎。」

- 排行榜（合法性與品質由 **gpt-5.5 medium 當裁判**評分）：**gpt-5.5 medium 95.4 居冠**、claude-fable-5 medium 90.3 居次、gpt-5.4 medium 88.6 第三；最低為 deepseek-v4-pro 12.8。
- [推測] 裁判模型 gpt-5.5 同時拿下第一，存在自我評分偏誤的疑慮，看待分數時值得留意。
- HN 討論串中作者另提到：本地模型（Qwen、Gemma 級）prompt 超過 1 萬 token，多半能走合法回合但「走不出好棋」，且目前「沒有划算的方式長期跑這套 app」。
- 此故事連到 mtgautodeck.com 原文（HN 64 分、28 則留言）；GitHub 上另有同名相關專案 GregorStocks/mage-bench（建在 XMage 規則引擎、支援 2.8 萬張卡），與本文非同一作者，勿混淆。

原始來源（MTG Auto Deck（HN 提交者 CallumFerg））：https://mtgautodeck.com/articles/mtg-bench/

— ai.luvai.net（繁中 AI 情報站）