事件
Google 在 2026 年 6 月發表開源模型 Gemma 4 12B。這款 120 億參數的模型採用 Apache 2.0 授權,最大創新點並非參數規模本身,而是首次導入「無編碼器」多模態架構——移除了傳統音訊與影像編碼器,讓聲音和圖像輸入直接進入大型語言模型的推理流程。實現效果:硬體需求從數十 GB 降至 16GB 筆電即可執行。
技術背景:傳統多模態為什麼需要編碼器?
過去兩年的多模態模型主流設計都採「分離式架構」:
1. 視覺編碼器(Vision Encoder):把圖片轉成向量 2. 音訊編碼器(Audio Encoder):把聲音轉成向量 3. 大型語言模型(LLM):處理這些向量與文字推理
這套流程看似邏輯清晰、職責分明,但代價高: - 延遲堆積:訊號要過多層轉換、每層都有延遲 - 記憶體膨脹:編碼器本身就是獨立模型、佔用參數與顯存 - 複雜度成本:系統維護多個編碼器、調試難度與失敗點倍增 - 同步問題:多個模型推理,對齊成本高
Google 的洞察:這些編碼器本質上是『中介』,而大型語言模型其實有能力直接理解原始訊號。
「無編碼器」架構的邏輯
Gemma 4 12B 的做法:訓練時就讓模型直接處理圖像與聲音的原始資訊(或極少量預處理),跳過獨立編碼器。這意味著:
1. 參數統一:不是 12B LLM + 2B 視覺編碼器 + 1.5B 音訊編碼器,而是一個 12B 多功能模型 2. 推理一筆:輸入 → 直接理解 → 輸出,沒有中間轉換的開銷 3. 成本下沉:能在消費級硬體上跑,不需要企業級 GPU 集群
為什麼這很重要:市場結構的位移
這不是單純的工程改良,而是競爭定義的轉移:
### 舊邏輯(2024-2025 年) - 競爭軸線:參數規模 → GPU 數量 → 訓練成本 → 資金規模 - 贏家:OpenAI、Meta、DeepSeek——誰有錢砸最大的模型就誰贏 - 護城河:算力與資本壟斷
### 新邏輯(Gemma 4 啟示) - 競爭軸線:架構效率 → 部署成本 → 邊界端能力 → 開發者生態 - 贏家:不是最大的廠商,而是最聰明設計架構的廠商 - 護城河:訓練創新 + 開源社群鎖定
歷史回音
この現象は經濟學中的「去中介化」(Disintermediation)現象——曾經在多個產業上演過:
1. 銀行系統:自動提款機移除了分行櫃檯人員、直接連接客戶與帳戶系統 2. 出版業:亞馬遜 Kindle 移除了印刷廠、直接銷售電子書、改變整個產業鏈 3. 計程車:Uber 移除調度員、用算法直接連接司機與乘客 4. 零售:自助結帳移除收銀員、顧客直接掃碼付款
每次去中介化都伴隨: - 成本崩跌(但品質要等同或更好) - 市場進入門檻下降(更多玩家能競爭) - 舊護城河失效(原本的「中介方」或「大公司優勢」減弱) - 新護城河形成(誰擁有直連的技術與網絡、誰就新贏)
Gemma 4 的現實衝擊
對企業用戶: - 不必租雲端 GPU、可在內部筆電跑多模態理解 - 數據隱私威脅降低(推理在本地) - 部署成本從數千美元 / 月降至零(用開源模型)
對 AI 公司生態: - OpenAI、Anthropic 的「大模型 SaaS」商業模式開始受壓力 - 企業會問:「我為什麼要花 $20/百萬詞元,而不用免費的 Gemma 4?」 - 差異化不再是「更聰明」,而是「針對特定任務的微調」
: - 高端 GPU 需求可能轉趨穩定(不再野獸生長) - 邊界設備(手機、平板、工業設備)的晶片需求會上升