16GB 筆電執行多模態：Google Gemma 4 為什麼砍掉編碼器

當業界還在用『更多 GPU、更大模型』捶爆成本時，Google 選了完全反向的路：砍掉中間層，讓 12B 參數模型做到原本需要百億級才能做的事——這不只是工程優化，而是價值競爭的地盤轉移。

本篇 atom

去中介化架構(Disintermediation Architecture)

透過移除系統中的中間轉換層（編碼器、適配器、管道），讓上游輸入直接與核心處理邏輯連接，降低延遲、複雜度與資源消耗，同時重新定義競爭邊界從『規模』轉向『效率』。

提出者：經濟學與系統設計長期實踐

AI 模型競爭座標：規模 vs 架構效率

邊界設備模型（TinyLLM）：1-5B 參數、手機可執行

新方向（Gemma 4）：12B 參數、16GB 筆電

淘汰區（過時模型）：10B 參數、卻需 100GB 記憶體

舊方向（GPT-4）：100B+ 參數、數十 GB VRAM

推理鏈 · DNA chain

06 STEPS

原則 · 本篇核心

去中介化（Disintermediation）——當技術足以讓上游直連下游無損甚至更優時、中間層會被系統性砍掉

▸ 展開完整 6 步推理鏈（事件 → 觀察 → 模式 → 原則 → 應用 → 反例）

事件
Google Gemma 4 12B 移除音訊與影像編碼器、用單一 LLM 直接處理多模態輸入、硬體需求降至 16GB 筆電
觀察
原本需要 3-4 個獨立模型串聯的功能、現在一個 12B 模型就能做、成本與延遲都大幅下降
模式
這不是 12B 模型變聰明、而是移除了中間轉換層、讓訊號直接到達核心邏輯
原則
去中介化（Disintermediation）——當技術足以讓上游直連下游無損甚至更優時、中間層會被系統性砍掉

Multilateral lens

從不同板塊看這篇

Atomly 自動判斷這篇文章跟哪些 mental model 板塊相關、各從一個 lens 拆解。同一件事、不同視角。

觀察

無編碼器架構讓 12B 參數做到原本需要 30B+ 才能做的多模態任務、轉向『架構效率』而非『參數規模』競爭。

原則

模型能力的邊界不只由參數決定、架構設計對信息流的優化同樣決定能力天花板。

行動

評估 AI 模型時、停止只看參數規模、開始追蹤架構創新、這才是下一波差異化競爭點。

深入「AI/科技」板塊 →

出處：16GB 筆電就能跑多模態模型、AI Agent？Google 發表 Gemma 4 12B 揭企業 AI 新需求 · TechOrange · 2026-06-04T04:10:55+00:00

#AI/科技#架構設計#去中介化#成本結構#Gemma 4#護城河#市場轉移

事件

Google 在 2026 年 6 月發表開源模型 Gemma 4 12B。這款 120 億參數的模型採用 Apache 2.0 授權，最大創新點並非參數規模本身，而是首次導入「無編碼器」多模態架構——移除了傳統音訊與影像編碼器，讓聲音和圖像輸入直接進入大型語言模型的推理流程。實現效果：硬體需求從數十 GB 降至 16GB 筆電即可執行。

技術背景：傳統多模態為什麼需要編碼器？

過去兩年的多模態模型主流設計都採「分離式架構」：

1. 視覺編碼器（Vision Encoder）：把圖片轉成向量 2. 音訊編碼器（Audio Encoder）：把聲音轉成向量 3. 大型語言模型（LLM）：處理這些向量與文字推理

這套流程看似邏輯清晰、職責分明，但代價高： - 延遲堆積：訊號要過多層轉換、每層都有延遲 - 記憶體膨脹：編碼器本身就是獨立模型、佔用參數與顯存 - 複雜度成本：系統維護多個編碼器、調試難度與失敗點倍增 - 同步問題：多個模型推理，對齊成本高

Google 的洞察：這些編碼器本質上是『中介』，而大型語言模型其實有能力直接理解原始訊號。

「無編碼器」架構的邏輯

Gemma 4 12B 的做法：訓練時就讓模型直接處理圖像與聲音的原始資訊（或極少量預處理），跳過獨立編碼器。這意味著：

1. 參數統一：不是 12B LLM + 2B 視覺編碼器 + 1.5B 音訊編碼器，而是一個 12B 多功能模型 2. 推理一筆：輸入 → 直接理解 → 輸出，沒有中間轉換的開銷 3. 成本下沉：能在消費級硬體上跑，不需要企業級 GPU 集群

為什麼這很重要：市場結構的位移

這不是單純的工程改良，而是競爭定義的轉移：

### 舊邏輯（2024-2025 年） - 競爭軸線：參數規模 → GPU 數量 → 訓練成本 → 資金規模 - 贏家：OpenAI、Meta、DeepSeek——誰有錢砸最大的模型就誰贏 - 護城河：算力與資本壟斷

### 新邏輯（Gemma 4 啟示） - 競爭軸線：架構效率 → 部署成本 → 邊界端能力 → 開發者生態 - 贏家：不是最大的廠商，而是最聰明設計架構的廠商 - 護城河：訓練創新 + 開源社群鎖定

歷史回音

この現象は經濟學中的「去中介化」（Disintermediation）現象——曾經在多個產業上演過：

1. 銀行系統：自動提款機移除了分行櫃檯人員、直接連接客戶與帳戶系統 2. 出版業：亞馬遜 Kindle 移除了印刷廠、直接銷售電子書、改變整個產業鏈 3. 計程車：Uber 移除調度員、用算法直接連接司機與乘客 4. 零售：自助結帳移除收銀員、顧客直接掃碼付款

每次去中介化都伴隨： - 成本崩跌（但品質要等同或更好） - 市場進入門檻下降（更多玩家能競爭） - 舊護城河失效（原本的「中介方」或「大公司優勢」減弱） - 新護城河形成（誰擁有直連的技術與網絡、誰就新贏）

Gemma 4 的現實衝擊

對企業用戶： - 不必租雲端 GPU、可在內部筆電跑多模態理解 - 數據隱私威脅降低（推理在本地） - 部署成本從數千美元 / 月降至零（用開源模型）

對 AI 公司生態： - OpenAI、Anthropic 的「大模型 SaaS」商業模式開始受壓力 - 企業會問：「我為什麼要花 $20/百萬詞元，而不用免費的 Gemma 4？」 - 差異化不再是「更聰明」，而是「針對特定任務的微調」

： - 高端 GPU 需求可能轉趨穩定（不再野獸生長） - 邊界設備（手機、平板、工業設備）的晶片需求會上升

Counter View · Munger Inversion

1
「Gemma 4 之所以『足夠好』是因為 Google 的訓練資源與數據遠超業界、競爭對手複製不了、所以不構成真正的市場威脅」
— 大型科技公司 CEO
2
「無編碼器架構在專業領域（醫療影像、自動駕駛）可能失效、通用能力與專特能力的折扣遠高於 Google 宣稱的數字」
— AI 安全研究社群
3
「開源 Apache 2.0 意味著所有改進都成為公共財、Google 反而失去創新的商業回報、長期會削弱 Google 的研發投入動機」
— 華爾街分析師

如果去中介化是不可逆的市場力量、那麼未來 AI 的護城河會在哪裡？是『特定領域微調』還是『推理端集成能力』還是『訓練數據獨佔』？

▶ 參考來源 (4)

concept去中介化（Disintermediation） — 經濟學 / 運營理論
caseATM 對銀行分行員工的衝擊 — 經濟史 (1970)
caseKindle 對印刷出版業的衝擊 — 媒體史 (2007)
paperEncoder-Free Multimodal Architecture in Large Language Models — Google Research (2026)

今日練習跨域遷移· 想另一個領域的例子

登入收藏

想一個妳工作或生活中常接觸的『中間流程』或『中介角色』（例如：客服中心、採購申核、翻譯服務）。如果用『直連』的新技術砍掉它、會帶來什麼效率收益、又會失去什麼？跨域遷移到妳的產業、描述一個具體可實行的去中介化機會。

💡 把這個練習帶到一天裡 — 下次走在路上、看新聞、跟人聊天時、想想能怎麼套用這個原則。

第 874/1000