脈報 - Podcast

Bölümler

OpenAI 又站回主場？GPT 5.5、Microsoft 與 Anthropic 三線變化
1 May· 脈報
Nerd Snipe 這集把 OpenAI / Microsoft 新協議、Anthropic 企業摩擦與 GPT 5.5 使用感串在一起，提醒我們 OpenAI 正在重新取得主動權。 YouTube 版：https://www.youtube.com/watch?v=ICvUc8rnXTA 文章：https://heymaibao.com/openai-gpt55-microsoft-anthropic-nerd-snipe/
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
MCP 為什麼會變成 production agent 的通路層？
1 May· 脈報
Anthropic 最新文章把 direct API、CLI、MCP 放在同一張 agent integration 地圖上。這集整理 MCP 為什麼適合雲端 production agent，以及 server、client、skills 該怎麼設計。 ⭐ 文章深度讀 https://heymaibao.com/mcp-production-agents/ ⚡ 章節重點 00:00 Agent 為什麼需要碰到真系統 01:54 API、CLI、MCP 三種連接方式 03:15 MCP 的跨 client 槓桿 04:35 好的 MCP server 不只是 API 鏡像 07:21 OAuth 與 context efficiency 09:37 MCP 加上 skills 才是工作流 11:25 怎麼判斷你該不該用 MCP 📝 懶人包 ∙ Direct API 適合小範圍、單點整合，快，但容易長出一堆客製化邊角。 ∙ CLI 適合本地或 sandbox 環境，輕巧，但碰到 web、mobile、cloud-hosted agents 就會卡在部署和認證邊界。 ∙ MCP remote server 適合 production agents，因為同一個 server 可以被多個相容 client 使用，並把 auth、discovery、rich semantics 放進共同層。 ∙ 我的觀察：MCP 的護城河不是 tool 數量，而是 intent 設計、授權、context efficiency 和 skills 的組合。 📚 參考資料 Building agents that reach production systems with MCP https://claude.com/blog/building-agents-that-reach-production-systems-with-mcp
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
Eksik bölüm mü var?

Akışı yenilemek için buraya tıklayın.
AI 時代，開源變成 SaaS 新護城河
1 May· 脈報
Theo 認為 AI 正在改寫 SaaS 護城河：客戶不只想用產品，也想 fork、改造、補上自己的長尾需求。這篇整理開源風險、building block economy 與 `patch.md` 的產品啟示。 ⭐ 文章深度讀：看完整整理，理解 AI 時代 SaaS 公司該怎麼重新設計開源與可修改性。 → https://heymaibao.com/ai-open-source-saas-moat/ ⚡ 章節重點 AI 改寫 SaaS 護城河 00:00 舊護城河是長尾功能地獄 01:08 開源風險不能假裝不存在 01:58 T3 Code 的 fork 訊號 03:21 Building block economy 05:16 patch.md 與自我修復軟體 06:49 給科技公司執行長的問題 08:18 📝 懶人包 ∙ Theo 的重點不是「所有產品都該立刻開源」，而是 AI 正在改變開源的商業價值。 ∙ 舊 SaaS 靠長尾功能鎖住客戶，但 AI 讓客戶更容易自己補長尾功能。 ∙ 真正的新護城河，可能是讓客戶能 fork、改造，卻仍願意付費使用你的後端與核心服務。 ∙ 我的觀察：`patch.md` 這個概念最值得看，因為它把客製化、更新與商業化放進同一個產品問題。 📚 參考資料 A letter to tech CEOs → https://www.youtube.com/watch?v=G1xqTjoihfo
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
Vibe Coding 真正改變的不是寫程式，而是誰終於能做軟體
1 May· 脈報
Naval 談 Vibe Coding：AI agent 讓軟體原型更容易，也讓創作者、工程師與創投重新面對同一個問題：當寫程式變便宜，真正稀缺的是願景、品味、驗證能力，還是分發？ ⭐ 文章深度讀：看懂軟體創作的瓶頸，正在從會不會寫 code 搬到能不能判斷、驗證與分發。 → https://heymaibao.com/naval-vibe-coding-software-creators/ ⚡ 章節重點高牆倒下後誰會崛起 00:00 Vibe Coding 不是自動補程式碼 01:21 私人工具與原型會大爆發 02:39 創作者直覺不再被團隊磨平 04:10 Agent 會迎合你，判斷變更重要 05:43 純軟體護城河為什麼變薄 07:10 Apple 的入口稅會被重新定價 08:35 真正的瓶頸搬到品味與驗證 09:38 📝 懶人包 ∙ Vibe coding 不只是 AI 幫你補程式碼，而是你用自然語言指揮 agent 跑完整軟體生產迴圈。 ∙ 它最先改變的是原型、私人工具與長尾應用程式，不是一開始就取代成熟產品。 ∙ 它不消滅工程判斷，反而讓操作者的架構、除錯與品味責任更明顯。 ∙ 我的觀察：軟體護城河會從「寫得出來」移到「知道做什麼、怎麼驗證、怎麼分發」。 📚 參考資料 On Vibe Coding → https://www.youtube.com/watch?v=hTdSU7q5WCo
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
Ghostty 離開 GitHub：當開源工作流被平台穩定性拖住
30 Nis· 脈報
Ghostty 將離開 GitHub。這不是單次 outage 的情緒反應，而是開源維護者對 GitHub issues、PR、Actions 等工作流可靠性失去信任的訊號。 ⭐ 文章深度讀：用你的專案檢查一次 CI、PR、issue 和 mirror 依賴風險 → https://heymaibao.com/ghostty-leaving-github/ ⚡ 章節重點 Ghostty 為何搬家 00:00 不是情緒反應 01:36 Git 之外的工作流 02:55 每天卡住的代價 03:47 遷移是風險管控 04:34 你的團隊撐得住嗎 06:12 📝 懶人包 ∙ Ghostty 將離開 GitHub，但會用 incremental 的方式移除依賴，並保留目前 GitHub URL 的 read-only mirror。 ∙ Mitchell Hashimoto 說，問題不是 Git 本身，而是 issues、PR、Actions 等 GitHub 周邊基礎設施反覆影響工作。 ∙ 這不是單次 2026 年 4 月 27 日大型 outage 造成的決定。原文說，團隊已經討論和規劃了幾個月。 ∙ 作者個人專案和其他工作目前仍留在 GitHub，所以這不是全面撤離，而是先處理受影響最大的 Ghostty。 📚 參考資料 Ghostty Is Leaving GitHub → https://mitchellh.com/writing/ghostty-leaving-github
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
Karpathy 談 Agentic Engineering：AI 會外包寫程式，但不能外包理解
30 Nis· 脈報
Karpathy 在 Sequoia 訪談中把 vibe coding、Software 3.0 和 agentic engineering 串起來：AI 會外包大量寫程式工作，但工程師仍要負責理解、規格、驗證與品質。文章深度讀： https://heymaibao.com/karpathy-agentic-engineering/ 參考資料： Andrej Karpathy: From Vibe Coding to Agentic Engineering https://www.youtube.com/watch?v=96jN2OCOfLs
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
AI 時代最稀缺的能力，不是產能，而是知道自己要什麼
30 Nis· 脈報
AI 讓做事變快，但不會替你決定什麼值得做。這篇整理 @karrisaarinen 對規劃、寫程式、設計和領域判斷的觀察，拆解為什麼方向感與專業判斷在 AI 時代更稀缺、更值得重視。 ⭐ 文章深度讀：用文字版補上完整脈絡，掌握導入 AI 時該先問的方向問題 → https://heymaibao.com/ai-judgment-direction/ ⚡ 章節重點速度變快，判斷更重要 00:00 好做不等於值得做 01:15 規劃不是文件，是方向盤 02:23 專業悖論：越懂越看得見破綻 03:25 寫程式與設計：容量變大，判斷仍在人手上 04:46 領域脈絡決定 AI 用法 06:38 先問目標，再交給 AI 07:47 📝 懶人包 ∙ AI 不會取消規劃，只會讓規劃從固定文件變成更頻繁的方向校準。 ∙ AI 工具會帶路，它不只加速工作，也會改變我們覺得什麼容易、什麼重要。 ∙ AI 沒讓專業失效，而是把專業價值集中到方向、限制、品味和評估。 ∙ 我的觀察：導入 AI 時，最該問的不是它能不能做，而是它會讓我們更快靠近什麼。 📚 參考資料 Some Notes on AI by @karrisaarinen → https://x.com/karrisaarinen/status/2048267794924650791
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
Claude Code 過去一個月變笨：Anthropic 親自拆解三條根因
26 Nis· 脈報
Claude Code 過去一個月變笨：Anthropic 4 月 23 日 postmortem 拆出三條獨立 bug，從思考強度被降到一行 prompt 砍能力，三條全修，並重置所有訂閱者 usage limits。 ⭐ 文章深度讀：直接給你 Anthropic 自承的三層 QA 盲區清單 → https://heymaibao.com/claude-code-april-23-postmortem/ ⚡ 章節重點 Claude Code 為什麼變笨 00:00 第一條：預設思考強度被偷偷降級 01:53 第二條：每回合都清思考的 cache bug 02:55 第三條：一行 system prompt 砍掉 3% 分數 03:54 為什麼多重 review 與 dogfooding 都漏掉 04:49 Anthropic 用 Opus 4.7 反過來抓自家 bug 06:11 給 agent / coding tool 開發者的通用教訓 06:43 📝 懶人包 ∙ 過去一個月 Claude Code 變笨是真的，原因是三條完全獨立的工程改動：預設思考強度從 `high` 被降到 `medium`、一個讓 Claude 越聊越失憶的 cache bug、一行為了壓回應長度而上線的 system prompt 反而砍能力。三條問題分別命中 Sonnet 4.6、Opus 4.6 與最新的 Opus 4.7。 ∙ 三條都已在 4 月 20 日的 Claude Code v2.1.116 之前修好。 Anthropic 從 4 月 23 日對所有訂閱者重置 usage limits 作為補償。 ∙ 「usage limits 縮水更快」其實是上面那個 cache bug 連續快取沒命中的副作用，不是 Anthropic 獨立的計費動作。 ∙ 我的觀察：這份 postmortem 真正值得帶走的，不是這三條 bug 各自被修好，而是 Anthropic 親自寫出來的三層 QA 盲區。跨系統交界的 corner case 過了多層 review、員工用的內部 build 跟對外 ship 的 build 不一致、一行壓回應長度的 system prompt 沒跑夠逐行測試就上線。對任何在做 agent / coding tool 的人都是通用警告。 📚 參考資料 Anthropic - An update on recent Claude Code quality reports → https://www.anthropic.com/engineering/april-23-postmortem @ClaudeDevs 在 X 上的對應發文 → https://x.com/claudedevs/status/2047371123185287223
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
有人買下 30 個 WordPress 外掛並埋入後門，8 個月後引爆
26 Nis· 脈報
有人花六位數買下 30 個 WordPress 外掛，後門靜待 8 個月後引爆，波及數十萬個網站。解析惡意程式如何繞過站長視線、為何強制更新不代表清乾淨，以及你現在應該做什麼。 ⭐ 文章深度讀：整理了確認 wp-config.php 是否中招的自檢方法，以及 31 個受影響外掛清單 → https://heymaibao.com/wordpress-plugin-backdoor-supply-chain-attack/ ⚡ 章節重點合法收購，引爆數十萬網站的起點 00:00 神秘買家如何拿下 30 個外掛 01:08 後門設計：為何潛伏 8 個月都沒人發現 02:25 確認中招：檢查你的 wp-config.php 03:55 WordPress 信任漏洞，2017 年就有人用過 05:17 📝 懶人包 ∙ 攻擊者合法收購外掛組合後，第一個程式更新就是後門，這筆交易直接換來數十萬個 WordPress 網站的控制權 ∙ 後門只對搜尋引擎機器人 (Googlebot) 顯示垃圾連結，站長用自己的瀏覽器根本看不出來，惡意程式靜伏了 8 個月沒人察覺 ∙ WordPress.org 沒有外掛所有權移轉審查機制，這套攻擊劇本 9 年前就執行過一次，平台機制從未改變 ∙ 我的觀察：WordPress 外掛的「信任」是歷史積累出來的，不是即時驗證的。一旦外掛換了主人，那份信任就跟著轉移了，使用者毫無感知。安裝量排名、多年在 WordPress.org 上架，這些都不能當成現在的安全保證。 📚 參考資料 Someone Bought 30 WordPress Plugins and Planted a Backdoor in All of Them (Austin Ginder，Anchor Hosting) → https://anchor.host/someone-bought-30-wordpress-plugins-and-planted-a-backdoor-in-all-of-them/ Millions of WordPress sites just got hacked… again (Code Report / NetworkChuck) → https://www.youtube.com/watch?v=piah4fV_o2Q
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
App Store 截圖優化別先改 UI，先把文案變成下載理由
25 Nis· 脈報
開發者常把 App Store 截圖寫成規格表。這篇整理 @PaulSolt 的截圖文案反思，說明為什麼截圖文字可能比 UI 更早影響下載，以及如何把每張截圖改成清楚的下載理由。 ⭐ 文章深度讀：看懂該刪掉哪些功能標籤，改成更像下載理由的截圖文案 → https://heymaibao.com/app-store-screenshot-copywriting/ ⚡ 章節重點下載少可能不是產品問題 00:00 截圖不是作品集，是廣告 00:58 文字 overlay 為什麼影響成效 01:51 功能清單為什麼說服不了人 02:29 把截圖排成會轉換的故事 03:51 遮住 UI 的低成本測試 05:06 文案是產品承諾的壓力測試 06:17 📝 懶人包 ∙ App Store 截圖不要只列功能。用戶不是在問「這個應用程式有什麼功能」，而是在問「這跟我有什麼關係」。 ∙ 截圖要有順序。先講痛點，再講使用後的改變，再放證據，最後才交代功能怎麼做到。 ∙ 先寫文案，再設計畫面。若一句話說不清用戶得到什麼，UI 再漂亮也只是展示。 ∙ 我的觀察：這其實是產品定位測試。你寫不出好截圖文案，通常不是文案能力不夠，而是還沒把產品承諾想清楚。 📚 參考資料原始 X 貼文：每天讓你少拿下載的截圖錯誤 → https://x.com/paulsolt/status/2037591726227902555 Theodora 關於 App Store 截圖文字的貼文 → https://x.com/designerants/status/1881033920323444947?s=20 DesignerAnts 案例頁 → https://www.designerants.com/work Super Easy Slides 的 App Store 頁面 → https://apps.apple.com/us/app/super-easy-slides/id6738591861?mt=12
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
AI agent 為何重犯同樣的錯？skillify 10 步 workflow
23 Nis· 脈報
Garry Tan 用兩個真實失誤拆解 AI agent 為何老是重犯同樣的錯，重點不在多寫 prompt，而是把每次失敗 skillify 成技能、腳本、測試、resolver 與稽核 workflow。 ⭐ 文章深度讀：整理了 skillify 真正該抄走的修錯順序與長期護欄 → https://heymaibao.com/skillify-agent-reliability-workflow/ ⚡ 章節重點為什麼 AI agent 老是重犯同樣的錯 00:00 兩個失敗案例，問題其實是同一種 01:51 Skillify 到底在修什麼 02:53 為什麼測試、路由與 DRY 稽核缺一不可 04:33 這其實是在建立新的工程紀律 05:49 最後該帶走的 3 個問題 06:26 📝 懶人包 ∙ LangChain / LangSmith 已經給了很多測試 primitives，但沒有交付錯誤發生後該怎麼修、修到哪裡才算完成的 workflow。 ∙ 原文用兩個失敗案例指出同一個 root cause，也就是 deterministic 工作沒有被拉回腳本與規則，而是還在交給模型現場推理。 ∙ skillify 的本質，是把每次失敗升格成技能契約、腳本、測試、resolver 與稽核流程，讓同類錯誤之後難以重演。 ∙ 這篇最值得抄走的，不是某個工具名，而是把 agent 的長期改進從口頭承諾改成工程制度。 📚 參考資料 @garrytan 的 X 貼文 → https://x.com/garrytan/status/2046876981711769720
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
Google 做的 DESIGN.md，想解決 AI 寫 UI 最常見的失憶症
22 Nis· 脈報
Google Labs Code 開源的 DESIGN.md，不只放 token，還能 lint、diff、export、spec。當 AI 越來越常直接寫 UI，設計系統是不是也需要一份能被 AI 長期讀懂的單一檔案？ ⭐ 文章深度讀：整理了 DESIGN.md 補上的 Why、CLI 工作流，以及什麼團隊適合現在試 → https://heymaibao.com/google-design-md-ai-ui-memory/ ⚡ 章節重點設計語氣為什麼會慢慢飄掉 00:00 DESIGN.md 補上的不是 token，而是 Why 02:19 lint、diff、export、spec 為什麼關鍵 04:18 什麼團隊現在最值得試 05:40 設計系統正在變成 AI 契約 07:01 📝 懶人包 ∙ `DESIGN.md` 不只是設計 token 檔，它把 token 和設計理由放進同一份文件。AI 代理不只知道數值，還知道為什麼要這樣用，設計語氣比較不會在第二輪就掉光。 ∙ 真正讓這個專案成立的，是 `lint`、`diff`、`export`、`spec` 這組 CLI。設計系統因此不只是文件，而是可以驗證、比較、轉換的工作流產物。 ∙ 這套格式不是要你丟掉現有工具鏈。`export` 可對接 `Tailwind` 和 `DTCG`，專案裡的範例也同時附 `DESIGN.md`、`tailwind.config.js`、`design_tokens.json`，更像中介層，不像封閉標準。 ∙ 我的觀察：如果你的 UI 已經常常由 AI 直接產出，這份專案很值得試。但如果團隊還沒進入 AI 主導工作流，它現在更像值得觀察的方向，而不是所有人都要立刻重押的新標準。 📚 參考資料 google-labs-code/design.md → https://github.com/google-labs-code/design.md DESIGN.md README → https://github.com/google-labs-code/design.md/blob/main/README.md DESIGN.md spec → https://github.com/google-labs-code/design.md/blob/main/docs/spec.md
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
Peekaboo v3 讓 AI 操作 Mac：從看見螢幕到真的點下去
21 Nis· 脈報
Peekaboo v3 Beta 讓 AI 代理能看見 Mac 螢幕、取得 UI map，並透過 CLI 或 MCP 工具點擊、輸入、操作視窗。這篇整理它的核心用途、安裝門檻、風險邊界與適合場景。 ⭐ 文章深度讀：整理 Peekaboo 適合哪些 Mac 桌面 agent workflow，以及該注意的權限與風險 → https://heymaibao.com/peekaboo-mac-ai-agent/ ⚡ 章節重點 AI 也想看見 Mac 00:00 桌面盲區在哪裡 01:18 Peekaboo 補上眼睛和手 02:12 UI map 讓操作可回指 02:53 什麼時候值得用 04:36 權限與 beta 風險 06:01 從亂點到有地圖 07:48 📝 懶人包 ∙ Peekaboo v3 Beta 把 Mac 螢幕擷取、AI 分析、GUI 操作、CLI 與 MCP server 放進同一套工具鏈。 ∙ 它的關鍵不是單次截圖，而是 `see` 產生 snapshot id、UI map 與可互動元素，讓後續點擊和輸入能回指同一個桌面狀態。 ∙ 使用前要先接受 macOS 15.0+、Screen Recording、Accessibility 與 beta 穩定度這幾個前提。 ∙ 我的觀察是，Peekaboo 適合 GUI 本身才是真相來源的工作，不適合取代更穩的 API、檔案或測試輸出。 📚 參考資料 Peekaboo GitHub repo → https://github.com/steipete/Peekaboo
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
Codex Computer Use 入門：什麼時候該讓 AI 操作桌面
21 Nis· 脈報
整理 OpenAI Codex 應用程式的 Computer Use：它適合哪些 GUI 任務、需要哪些 macOS 權限，以及為什麼已登入瀏覽器、桌面應用程式與外掛選擇都會影響安全邊界與限制。 ⭐ 文章深度讀：判斷哪些 GUI 任務值得交給 Codex → https://heymaibao.com/codex-computer-use/ ⚡ 章節重點先理解 Computer Use 的邊界 00:00 GUI 真相問題是什麼 01:01 什麼時候該用 Computer Use 02:05 權限與安全邊界 03:16 把它當 GUI 驗證者 05:14 用它省下心力的地方 06:19 📝 懶人包 ∙ Computer Use 適合 GUI 才能驗證的任務，例如桌面應用程式測試、瀏覽器流程、應用程式設定與只在圖形介面出現的錯誤。 ∙ 啟用前要安裝 Computer Use 外掛，並授權 macOS 的螢幕錄製與輔助使用。 ∙ 如果目標應用程式有專用外掛或 MCP 伺服器，OpenAI 文件建議優先使用結構化整合，不要一開始就走視覺操作。 ∙ 我的觀察是，Computer Use 最適合當「GUI 驗證者」，不適合當成日常資料存取或敏感帳號操作的第一選項。 📚 參考資料 Computer Use – Codex app | OpenAI Developers → https://developers.openai.com/codex/app/computer-use
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
Claude 使用者：覺得變笨不是錯覺，五個層次都在出問題
20 Nis· 脈報
Claude 變笨不是錯覺。Theo Browne 拆出預期、Claude Code 殼、API、inference、模型五層，搭 Margin Labs 57% 掉 55%、AMD 80 倍硬數字，附三個自己能關的 workaround。 ⭐ 文章深度讀：五層退化各自怎麼形成、3 個自己能關的設定，整理成一份可帶走的清單 → https://heymaibao.com/claude-dumber-again/ ⚡ 章節重點不是錯覺：57% 掉到 55% + AMD 80 倍 00:00 Theo 的五層框架登場 01:27 第一、二層：使用者預期 + Claude Code 殼 02:01 第三、四層：API 分詞器 + inference 不穩 03:25 第五層：thinking redaction + 1M context 04:34 三招能自己關 + 真正的考驗：工程品質 06:08 📝 懶人包 ∙ Margin Labs、AMD 內部分析、Matt Mau benchmark 等多組第三方數據都看到退化，體感不是錯覺。Margin Labs 在 Claude Code 上跑 SWE-bench 的加權平均，從 3 月以來從 57% 一路掉到 55%，大致是每週穩定往下，只有新 SOTA 模型上線時會小幅回升。 ∙ Claude Code 這個 harness (模型外面那層包住它的程式) 可能是最大嫌犯。Matt Mau 的 benchmark 顯示同一顆 Opus 在 Cursor 裡比在 Claude Code 裡好 15%。Terminal Bench 上同樣搭 Opus 的 Claude Code 只拿 58%，Forge Code、Cappy 那類同類 harness 可以上 75% 到 82%。 ∙ Anthropic 自己承認做了兩個大改動：Opus 4.7 換新 tokenizer 讓同樣一段輸入吃掉更多 token，三月把 100 萬 token 的 context window 預設打開。後者的時程和品質下滑最吻合，因為他們 2025 年 9 月的 postmortem 就寫過，被誤路由到 100 萬 token 版本的模型反應比較笨。 ∙ 我的觀察：這部影片最有用的不是罵 Anthropic，而是把「感覺變笨」拆成五層這個框架。當你看懂哪層在出問題，就能先做幾個使用者自己決定的動作：把 100 萬 token context 關掉、把 effort 調成 high、少塞一堆自己裝上去的 MCP 與 skill (Claude Code 可以外掛的工具與能力模組)。這些今天就能動手，不用等下一版模型。 📚 參考資料 Theo Browne, Did Claude really get dumber again? → https://youtu.be/KFisvc-AMII
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
Claude Code 30 分鐘省 81%：prompt caching 的三條鐵律
20 Nis· 脈報
Claude Code 一場 30 分鐘 session 省 81%、命中率 92%。這不是 API 開關，是三條 prompt caching 鐵律。拆 hash 折點「1+2=3 命中、2+1 miss」與三個 production 踩雷。 ⭐ 文章深度讀：整理了 92% 命中率背後的紀律與 3 個 production 踩雷 → https://heymaibao.com/claude-code-prompt-cache-discipline/ ⚡ 章節重點一場 30 分鐘 session 省 81% 的帳單 00:00 開 cache 為什麼不等於省錢 00:46 前段 vs 後段：指紋一字之差就 miss 01:43 三條鐵律與 2+1 為什麼 miss 03:18 幫你的 agent 做快取健檢 04:52 📝 懶人包 ∙ Cache read 只要原價的 0.1 倍，但 prompt 的前段 (prefix) 只要被動到一個字，整段 20,000 tokens 就要以全價重新算一次。你想像的「開 cache 就等於省錢」是假的，真正省不省，看你能不能讓 prefix 完全不動。 ∙ Claude Code 30 分鐘 session 可以做到 92% cache 命中率，2M tokens 從 $6 降到 $1.15，省 81%。這個 81% 不是 API 設定好就有，是每個產品決策 (subagent 只收摘要不收原始結果、用 reminder tag 取代改 system prompt、tool 定義一次載入完不再動) 都在保護同一個 prefix 的指紋。 ∙ 三條鐵律：不要在 session 中途改 tools (會清空整份 cache)、不要中途切 model (cache 是綁 model 的)、不要為了更新 state 去改 prefix。想更新 state 的正確做法是在下一則 user message 後面掛一個 reminder tag (一段寫在對話裡的提示字串，不動 prefix 就能把訊息傳給模型)，讓 prefix 完全不動。 ∙ 我的觀察：這套紀律比多數 agent 框架的預設做法都嚴格。很多框架會把 session state 塞進 system prompt、用 timestamp 當 prompt 一部分、根據情境動態增減工具，這些做法會讓 cache 命中率悄悄崩潰，成本不是線性增加，是階梯式飆升。讀完建議回頭檢查自己的系統有沒有中這些陷阱。 📚 參考資料 Daily Dose of Data Science - LLMOps Crash Course Part 1 → https://www.dailydoseofds.com/llmops-crash-course-part-1/ Avi Chawla 在 X 的 prompt caching 串文 → https://x.com/_avichawla/status/2044670188998803855
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
Garry Tan 回應 LLM 批判：模型是引擎，harness 是車
19 Nis· 脈報
Garry Tan 回應 Jepsen 作者 Kingsbury 的 LLM 批判：不可靠是工程問題不是哲學問題。用 harness、skill file、resolver、deterministic code，把幻覺變可 debug 的 bug。 ⭐ 文章深度讀：拆好 harness 四件組與 Kingsbury 四案例的工程修法清單 → https://heymaibao.com/garry-tan-llm-harness-is-the-car/ ⚡ 章節重點引擎還是整台車？AI 新思考框架 00:00 Kingsbury 32 頁宣判 LLM 是胡扯機器 00:36 Garry Tan 一句話反駁：觀察對，結論錯 01:59 harness 四件組：skill file、resolver、deterministic code 02:50 從幻覺哲學題變成工程 bug 04:43 模型是引擎，去造那輛車 06:43 📝 懶人包 ∙ Kingsbury 文章裡的四個 LLM 失敗案例 (Gemini 把浴室 3D 圖的馬桶弄不見、ChatGPT 把白補丁畫錯位置、Claude 做 image-to-image 產出一堆亂七八糟的多邊形、某個 LLM 宣稱下載了股價資料但其實是亂數圖) 都是真的失敗。但每個案例都是「一個人坐在生模型前打字」，沒有 skill file 指導流程、沒有 deterministic tool 處理精準部分、沒有 resolver 路由、沒有 harness 管 context。 ∙ Garry 的正面主張是 thin harness + fat skills：判斷推上 skill file (結構化的 markdown 程序文件)，執行推下 deterministic code (固定輸出的程式)，中間由 resolver 路由，外層由 harness 薄薄地 orchestrate。連 Anthropic 自己都包了 512,000 行程式碼在 Claude 外面，這是做最強模型的人也不信任生模型的工程證據。 ∙ 這套架構不會讓 LLM 變聰明，但會把失敗模式從「模型幻覺」改成「skill 寫錯 / tool 有 bug」。前者是哲學絕望，後者是可 debug 可修復的工程問題。 ∙ 我的觀察：這場辯論對 AI 使用者的意義，不在判決誰對誰錯，在於換一個診斷框架。下次手邊的 LLM 又幻覺了，該問的問題不是「AI 不行」，而是「我的這個工作流裡，少了哪一層 harness、哪一個 deterministic tool、哪一條 skill」。把失敗當工程 bug 去修，而不是當成判決書。 📚 參考資料 Garry Tan: The Future of Everything is Lies (Response) → https://x.com/garrytan/status/2045798603059548364
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
9 秒語音訊息：OpenClaw 創辦人 Peter Steinberger 的 TED
19 Nis· 脈報
OpenClaw 創辦人 Peter Steinberger 在 TED 的 17 分鐘演講整理：從 Marrakech 9 秒語音訊息，到 60 歲釀酒師用手機做網站，agent 真正改變的是誰能 build 這件事。 ⭐ 文章深度讀：把 Peter 在 TED 攤開的 agent 風險姿態與 access 轉捩點，整理成可帶走的判斷 → https://heymaibao.com/openclaw-peter-steinberger-ted/ ⚡ 章節重點 9 秒語音訊息，為什麼改寫了 AI 的定義 00:00 Peter 是誰：賣掉公司後的 3 年空白 00:57 Marrakech 的 9 秒：agent 和 chatbot 真正的差別 02:33 Discord 那一夜：800 則訊息與他誠實攤開的姿態 03:52 NVIDIA、龍蝦、他差點把整個專案刪掉 04:43 60 歲釀酒師與 access 才是真革命 05:26 Heartbeat：再恐怖一點點的功能 06:43 龍蝦跑出來了，這扇門不會再關上 07:54 📝 懶人包 ∙ Peter Steinberger 是 OpenClaw (一個讓 agent 幫你處理日常任務的開源 AI 工具) 的創辦人。他帶著自己寫的 WhatsApp agent 去摩洛哥 Marrakech，錄了一則語音訊息傳給它 — 他從沒寫過語音支援。9 秒後 agent 自己把轉檔、找翻譯工具、呼叫 OpenAI API 一整串接起來，回覆他。他說這就是他看懂「chatbot 放棄，agent 即興發揮」的那一刻。 ∙ OpenClaw 今年變成成長最快的開源 agent 專案之一，轉捩點不是技術有多新，而是過去從沒寫過程式的人 — 像 60 歲釀酒師 Gerhard、São Paulo 青少年、深圳獸醫 — 都可以靠手機讓 agent 做完 90 分鐘釀酒、架網站、加付款。Peter 在 TED 上直接講：「真正的轉變不是技術，是 access。」 ∙ Peter 自己把 agent 放進公開的 Discord，一晚上收到 800 則訊息。早上他拔掉插頭，逐則讀完，確認沒洩漏隱私。他在 TED 上說的不是「你看多厲害」，而是「什麼都沒發生，但可能發生」。這是整場演講最誠實的一句話。 ∙ 我作為編者的觀察：Peter 最值得被注意的不是 OpenClaw 這個工具，而是他願意把 agent 時代的風險和興奮感同時攤開講。這是有法務部門的大公司做不到的姿態，剛好留給一個沒有法務部門的奧地利 builder。 📚 參考資料 Peter Steinberger 的 TED 演講原片：How I Created OpenClaw, the Breakthrough AI Agent | Peter Steinberger | TED → https://youtu.be/7rzYDM6vMtI
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
Gemini 3.1 Flash TTS 發佈，prompt 長得像一份電台劇本
19 Nis· 脈報
Gemini 3.1 Flash TTS 發佈，prompt 從挑 voice preset 變成寫五層劇本。Simon Willison 實測改地名就換口音。這篇拆解 audio tags、導演椅設計與 TTS 工作流的分界線。 ⭐ 文章深度讀：拆解五層 prompt 結構與 Simon 改地名的三次實測 → https://heymaibao.com/gemini-3-1-flash-tts-prompt-like-script/ ⚡ 章節重點為什麼這次 TTS 不只是升級 00:00 導演椅：從工程師變成導演 00:48 prompt 變成五層劇本 01:30 Simon 改地名就換口音的實驗 01:58 Elo 1,211 之外，真正的訊號是 SynthID 03:34 寫提示詞就是新的劇本寫作 04:24 📝 懶人包 ∙ Gemini 3.1 Flash TTS 的 prompt 不是幾行參數，而是一份五層的電台劇本結構：`AUDIO PROFILE`(角色檔，連節目副標一起寫)、`THE SCENE`(場景，連燈光時間都寫)、`DIRECTOR'S NOTES`(導演註記，底下再分 Style、Pace、Accent 三個子節，Style 裡還包含 Vocal Smile 與 Dynamics 兩條)、`SAMPLE CONTEXT`(這角色適合做什麼)、`TRANSCRIPT`(正式台詞，含 inline tags)。Simon Willison 對整份官方提示指南的評語是：說它驚人，都還算是保守的說法。 ∙ 口音靠文字描述裡的地名驅動。Simon 把範例裡「Jaz 來自 Brixton，London」的地名，先改成 Newcastle，再改成 Exeter，Devon，三次都拿到對應口音的輸出，完全不是靠選取語音 ID。 ∙ 硬規格與通路快照：第三方 Artificial Analysis TTS leaderboard 在發佈當天的盲測給出 Elo 1,211，被放進「最佳象限」(高品質 + 低成本)；走標準 Gemini API，model ID 是 `gemini-3.1-flash-tts-preview`，首日同時在 Google AI Studio、Vertex AI、Google Vids 三條管道開預覽；所有生成音訊都帶 SynthID 浮水印。 ∙ 我的觀察：這次 TTS 的分界線不是誰的音質更像真人，而是心智模型的切換。從挑一個 voice preset，變成幫配音演員寫一份角色設定。這件事會改寫整個 AI 語音工作流，而不只是多了一款可換的引擎。 📚 參考資料 Gemini 3.1 Flash TTS → https://simonwillison.net/2026/Apr/15/gemini-31-flash-tts/ Gemini 3.1 Flash TTS: the next generation of expressive AI speech → https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/ 官方 prompting guide → https://ai.google.dev/gemini-api/docs/speech-generation#transcript-tags Google AI Studio 生成語音 → https://aistudio.google.com/generate-speech Simon Willison 的測試 UI → https://tools.simonwillison.net/gemini-flash-tts Artificial Analysis TTS leaderboard → https://artificialanalysis.ai/text-to-speech/models DeepMind Gemini 3.1 Flash Audio model card → https://deepmind.google/models/model-cards/gemini-3-1-flash-audio/
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
Opus 4.7 變笨了嗎？真相是 4.6 幫你做的 prompt 被拿掉
18 Nis· 脈報
Opus 4.7 不是變笨，是 4.6 替你補意圖的那層被拿掉。Every 團隊五人親測，Anthropic 的 Alex Albert 在 livestream 解釋你的 prompt 為何失靈、這週該怎麼重寫。 ⭐ 文章深度讀：拆解了哪些工作流該留 4.6、哪些換 4.7 → https://heymaibao.com/opus-4-7-vibe-check/ ⚡ 章節重點真的變笨了嗎？你不是一個人 00:00 4.6 的「提示詞小精靈」被 4.7 裁員了 00:33 一年四次擺盪，不是意外是策略 01:22 4.7 的硬核新功能：自我驗證到視覺三倍 02:16 Every 五人實測：誰該留 4.6、誰能換 4.7 03:04 這週怎麼適應 4.7：四步行動計劃 05:43 📝 懶人包 ∙ **Opus 4.7 不再替你讀字裡行間**：它更字面、更精確，指令明確時在 Every 自家內部的 coding benchmark 拿到有史以來最好的成績，但指令模糊時就會停下來等你說清楚，或直接猜錯。 ∙ **4.6 默默幫你做的 prompt engineering (幫你補意圖)，4.7 交回給你**：Alex Albert 在 livestream 上確認，4.6 會替使用者補足缺漏的意圖，4.7 只聽明確指令。所以你過去兩個月調好的 prompt 庫，換到 4.7 預設會有一段不順期。 ∙ **這是 Anthropic 刻意的來回調校，一年四次**：Sonnet 3.7 太急躁、Opus 4 收斂、Opus 4.6 做太多、Opus 4.7 再次收斂。Alex 把這個節奏稱為 `perpetual back-and-forth`，是政策不是意外。 ∙ **我 (這篇的轉譯者) 看完 Every 原文，覺得對我們最實用的判斷是，別急著把所有工作流升級到 4.7**。需要明確規格配合的工作 4.7 值得換，靠 Claude 不請自來發現問題的場景，4.6 或 Sonnet 可能還要再留一陣子。 📚 參考資料 Vibe Check: Opus 4.7 Stopped Reading Between the Lines → https://every.to/vibe-check/opus-4-7
- Dinle Tekrar dinle Devam et Oynatılıyor…
- Daha sonra dinle Daha sonra dinle
Daha fazla göster

Bölümler

OpenAI 又站回主場？GPT 5.5、Microsoft 與 Anthropic 三線變化

MCP 為什麼會變成 production agent 的通路層？

AI 時代，開源變成 SaaS 新護城河

Vibe Coding 真正改變的不是寫程式，而是誰終於能做軟體

Ghostty 離開 GitHub：當開源工作流被平台穩定性拖住

Karpathy 談 Agentic Engineering：AI 會外包寫程式，但不能外包理解

AI 時代最稀缺的能力，不是產能，而是知道自己要什麼

Claude Code 過去一個月變笨：Anthropic 親自拆解三條根因

有人買下 30 個 WordPress 外掛並埋入後門，8 個月後引爆

App Store 截圖優化別先改 UI，先把文案變成下載理由

AI agent 為何重犯同樣的錯？skillify 10 步 workflow

Google 做的 DESIGN.md，想解決 AI 寫 UI 最常見的失憶症

Peekaboo v3 讓 AI 操作 Mac：從看見螢幕到真的點下去

Codex Computer Use 入門：什麼時候該讓 AI 操作桌面

Claude 使用者：覺得變笨不是錯覺，五個層次都在出問題

Claude Code 30 分鐘省 81%：prompt caching 的三條鐵律

Garry Tan 回應 LLM 批判：模型是引擎，harness 是車

9 秒語音訊息：OpenClaw 創辦人 Peter Steinberger 的 TED

Gemini 3.1 Flash TTS 發佈，prompt 長得像一份電台劇本

Opus 4.7 變笨了嗎？真相是 4.6 幫你做的 prompt 被拿掉