# Anthropic 為 Claude Fable 5 隱形護欄道歉、承諾透明化

- **事件**：Anthropic 於 2026/6/11 為新模型 Claude Fable 5 的一條「隱形護欄」公開道歉。該護欄針對疑似「模型蒸餾」（用大模型輸出訓練小模型）的請求，會在不通知使用者的情況下，透過修改 prompt、steering vectors 等手法**靜默降級或污染回應**，使用者拿到較差答案卻不知為何。
- **官方說法**：Anthropic 向 Wired 表示「我們做了錯誤的取捨，為沒拿捏好平衡道歉」（"We made the wrong trade-off and we apologize for not getting the balance right."）。
- **修正**：改為「可見」護欄——被標記的請求會明確回退到較舊的 Claude Opus 4.8（與既有的 cyber/bio 安全機制一致），並每次都明白告知使用者。
- **爭議點**：研究者抨擊靜默降級不透明、且可能扭曲模型評測與研發，帶有反競爭意味，引發強烈反彈後 Anthropic 才於數日內走回頭路。

原始來源（Gizmodo）：https://gizmodo.com/anthropic-apologizes-for-one-of-the-guardrails-on-its-fable-5-model-and-will-change-it-2000770365

— ai.luvai.net（繁中 AI 情報站）
