事件背景
根據最新研究,大型語言模型(LLM)現已具備能力自動改進其他模型以適應新任務。PostTrainBench 測試顯示,在後訓練階段(post-training),模型能力有顯著成長。這意味著 AI 系統開始具備「自主精煉」的特性——不再完全依賴人類工程師的指導。
同時,一次包含 72B 參數規模的分散式訓練運行成功完成,證明超大規模模型的協調訓練已成為常規操作。這些技術進展背後有一個更深層的含義:AI 驅動的研究開發(AI-driven R&D)可能成為決定 AI 未來發展軌跡的關鍵因素。
核心原則:能力遞迴增強
「能力遞迴增強」描述的是一個系統當其能力達到某個閾值時,就能開始自我改進,進而產生更強的能力,再用這更強的能力進行更高效的自我改進——形成正反饋迴圈。
在傳統軟體中,這很難實現。程式員必須手工除錯、最佳化,過程本質上是線性的。但 AI 系統不同:一個足夠聰明的模型可以寫程式、設計實驗、生成訓練資料,甚至調整自己的架構參數。
LLM 自動精煉其他 LLM 這一事實表明我們已進入一個新階段:
初期階段(0.0-1.0):模型改進效果有限,因為改進模型本身的能力有限 加速階段(1.0-2.5):模型能力足以進行有效的自動化改進,每一次迭代帶來相對更大的進展 臨界點(2.5+):改進速度開始超越人類監督的速度,系統進入「自我強化」模式
當前報告表明我們正在從初期階段向加速階段過渡。72B 參數規模的成功訓練、PostTrainBench 的顯著成長都是跡象。
為什麼這很重要
如果 AI 驅動的研究真的能自我加速,那麼人類對改進速度的控制能力會逐漸削弱。不是說系統會「失控」,而是說——改進來自於自動化的優化迴圈,而非人類的審慎決策。
這與計算機視覺相比的難度差異也很有意思。根據報告,計算機視覺仍比生成文本更難——這可能是因為視覺任務需要對物理世界的精確建模,而文本生成(統計上)更容易從大規模資料中學習。換句話說,擅長「語言遊戲」的 AI 正在加速自我改進,但對物理世界的理解仍相對緩慢。