# 生成模型安靜週：代理開始動手、錢押向代理式工作流

本期四個主題：Google 在 Android Show 端出 Gemini Intelligence 與 Gboard「Rambler」口述清稿；Microsoft 讓 AI 代理直接操作電腦介面並全面商用、OpenAI 成立部署子公司；Anthropic 揭露 80 倍營收與 9,000 億美元估值募資；以及生成模型零發布的安靜週、ChatGPT 介面視覺化，外加 Google I/O 前瞻。

## 本期觀點

這一週（5/11–5/17）生成模型圈出奇地安靜——兩份五月模型發布追蹤都記錄到「圖像、影片、音訊模型零大發布」。鎂光燈全在另外兩條線：AI 代理從 demo 走進正式商用（Microsoft 讓代理直接操作電腦介面、OpenAI 乾脆成立子公司派工程師駐場），以及錢的流向（Anthropic 揭露 80 倍營收、傳出 9,000 億美元估值的募資談判）。給創作者的判斷：安靜不是降溫，是大廠在下週 Google I/O 前憋牌。趁這週把手上的 prompt 資產與工作流整理好——下週多模態大概率有一波改版，到時再追就是被牽著走。

## 1. Android 變成「智慧系統」：Gemini Intelligence 與 Gboard Rambler

5/12 的 The Android Show: I/O Edition，Google 把整套「Gemini Intelligence」鋪進 Android：AI 即時生成的客製 widget（gen-UI）、Chrome 自動瀏覽、更聰明的表單填寫，還預告了以 Gemini 為核心的 Googlebook 硬體與次世代 Android Auto。對做內容的人，最實在的是 Gboard 的「Rambler」：Gemini 驅動的口述模式，自動去掉「嗯、啊」贅詞、聽得懂你中途改口、支援多語混講（code-switching），今年夏天先上 Pixel 與 Samsung Galaxy，且 Google 強調不儲存錄音。

為什麼重要：

- 「先講再修」的口述寫作流，正式被作業系統內建。TechCrunch 直接點名 Wispr Flow、Typeless 這類口述新創壓力山大——單點工具的功能，又一次被平台收編。
- 加上前一週（5/7）OpenAI 才把三個 Realtime 語音模型放進 API，「用講的跟 AI 工作」這條介面線兩大陣營在同步推進。口語輸入只會越來越髒、越即興——把髒輸入收斂成穩定輸出的，是你預先寫好的指令層。

**→ 站內馬上能用**：[ChatGPT 自訂指令合集](/collections/chatgpt-instructions) 正是「指令層」的現成範本，口述進來的雜訊靠常駐指令收斂成固定格式；想補結構化提示的基本功，從[聊天技法提示詞](/prompts?cat=tutorial)挑一篇開始。

## 2. 代理開始「動手」：Copilot Computer Use 全面商用、OpenAI 成立部署公司

兩件事擠在 48 小時內發生：

- 5/13，Microsoft Copilot Studio 的 Computer Use 在所有商業地區正式 GA——代理不再只接 API，而是直接看畫面、點按鈕、填表單。值得玩味的是，底層用的是 Anthropic 的 Claude Sonnet 4.5（beta）。
- 5/12，OpenAI 成立 The Deployment Company（外電稱規模逾 40 億美元的子公司），把「駐場工程師」做成產品，並收購倫敦約 150 人的工程顧問 Tomoro；首批客戶包括 Fidelity、Virgin Atlantic、Tesco 與 NBA。

為什麼重要：當代理能自己操作 UI，「一句話 prompt」的價值會持續往兩端移動——一端是把任務寫成代理能照做的「規格書」（步驟、邊界、驗收條件），另一端是出錯時知道怎麼定位、怎麼改。會寫 prompt 的人沒有被淘汰，是被升職成寫 SOP 的人。

**→ 站內馬上能用**：[Skills 專區](/skills) 收的就是「把任務寫成可重複執行規格」的玩法；prompt 跑出來不對勁時，[Prompt 除錯](/debug) 那套排查順序對代理任務一樣適用。

## 3. 錢的訊號：Anthropic 80 倍營收、Claude Code 一條線 25 億美元

5/11，Anthropic CEO Dario Amodei 揭露 2026 Q1 營收年增 80 倍、年化超過 440 億美元，其中 Claude Code 單一產品線年化 25 億美元、年花百萬美元以上的客戶從 12 家增加到 500 家以上。緊接著 5/12 起傳出 Anthropic 洽談 300 億美元募資、估值約 9,000 億美元——可能超車 OpenAI 的 8,520 億。同一週還有 PwC 把 Claude 鋪向全球數十萬員工、與 Gates 基金會的 2 億美元合作。

為什麼重要：營收結構說明引擎不是聊天、是代理式工作流（agentic coding）。錢往哪流、工具就往哪做——接下來各模型廠的產品更新，會優先餵養「會做事的 AI」而不是「會聊天的 AI」。對創作者的直接影響：生圖生影片工具也會逐步長出代理式批次流程（排程出圖、自動重試、串接後製），早一點習慣把需求寫成可交辦的格式不吃虧。

**→ 站內馬上能用**：[Chat 提示詞生成器](/tools/chat/generator) 可以把模糊需求展開成結構化的任務描述；不確定哪個模型適合哪種活，[模型對比](/compare) 有現成對照。

## 4. 生成模型的安靜週：介面在變「視覺化」、大招在路上

兩份五月模型追蹤（Digital Applied、mager.co）都明確記錄：5/11–17 沒有任何重量級圖像、影片或音訊模型發布。但介面端有兩個小動作值得記下：5/12 ChatGPT 讓免費用戶在回答裡看到更多網路圖片（視覺主題直接配圖、web 與 iOS 先行）；5/14 檔案庫（File library）開放給 Free 與 Go 用戶。

為什麼重要：

- AI 介面越來越視覺化＝內容被 AI 引用的型態在變。你的圖、你的作品頁會不會被 AI 介面撿去當答案的一部分，取決於頁面結構是否乾淨可解析——這對靠流量吃飯的創作者是新一代的 SEO 課題。
- 安靜週的另一面：Google I/O 下週就來。這週適合做的不是追新品，而是盤點手上的圖像 prompt 有哪些已經綁死在特定模型的語法上，換模型時才知道哪些要重寫。

**→ 站內馬上能用**：[圖像提示詞庫](/prompts?cat=image) 按工具分好類、適合當這週的盤點基準；要摸清各家模型的脾氣，[模型百科](/models) 一頁一個。

## 下週看什麼

- **Google I/O（5/19–20）**：官方已定檔兩天。傳聞重點是 Gemini 3.5 與主打「任何輸入到任何輸出」的多模態 Gemini Omni——若屬實，這會是本月對生圖、生影片的人最重要的一場發布會，值得把現有工具棧重新校一次。
- **Cursor Composer 2.5（傳 5/18）**：模型追蹤站列出兩個版本層級、僅限 Cursor IDE 內使用，代理式編程的軍備競賽還在加速。
- **Anthropic 300 億美元募資是否定案**：各方消息對「已敲定」還是「還在談」說法不一，月底前應有答案。

---
*本週報由 PromptCraft 編輯整理，資料來源含官方公告與當週社群動態（[彙整來源](https://champaignmagazine.com/2026/05/17/ai-by-ai-weekly-top-5-may-11-17-2026/)）。*

— ai.luvai.net AI 趨勢週報
