GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

2227 words

11 minutes

GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

2025-07-06

Research

Transformer

/

GLaM

/

MoE

/

sparse

/

Paper

一、前言#

論文中文-GLaM：利用混合專家架構實現語言模型的高效擴展，論文原文，搭配原文食用。這一篇同樣出自 Google 的稀疏模型領域的重磅論文——GLaM (Generalist Language Model)。

這篇論文可以看作是 Google 在 Switch Transformer 之後，乘勝追擊的又一力作。它不再僅僅是內部比較和探索，而是直接將矛頭指向了當時密集模型的王者——GPT-3，並在性能和效率上發起了全面的挑戰。

二、研究背景與動機 (Background and Motivation)#

在 GLaM 發表時，整個 NLP 領域依然被 GPT-3 的巨大成功所籠罩。通過將模型參數擴展到 1750 億的驚人規模，GPT-3 在少樣本（Few-shot）甚至零樣本（Zero-shot）學習上展現了前所未有的能力。然而，這種成功的背後是巨大的陰影：訓練和運行這些大型密集模型需要天文數字般的計算資源和能源消耗，這條路正變得越來越難以為繼。

繼 Switch Transformer 驗證了稀疏模型的可行性後，Google 的研究者們決定更進一步，提出一個核心問題：我們能否構建一個稀疏模型，不僅在訓練和推理效率上遠超 GPT-3，更能在 GPT-3 最擅長的少樣本學習任務上正面擊敗它？

GLaM (Generalist Language Model) 就是為了回答這個問題而誕生的。它的目標不是對現有方法做微小的修補，而是要證明一種全新的、更高效的擴展範式是優越的。

三、核心問題 (The Core Problem)#

論文要解決的核心問題非常明確和具有挑戰性：

設計並訓練一個參數總量遠超 GPT-3 的稀疏激活模型，使其在訓練能耗和推理成本上顯著低於 GPT-3 的同時，在橫跨 29 個 NLP 任務的少樣本（few-shot）、單樣本（one-shot）和零樣本（zero-shot）評估中，取得全面更優的性能。

這不僅是一個技術問題，更是一次對「暴力美學」式密集模型擴展路線的直接挑戰。

四、提出的方法與核心設計#

GLaM 是一個模型家族，其核心架構是基於 稀疏激活的專家混合模型 (MoE) 的 Decoder-Only Transformer，這使得它可以和同為 Decoder-Only 架構的 GPT-3 進行公平的比較。

其核心設計與 Switch Transformer 有一個關鍵的不同點：

Top-2 路由機制： GLaM 的 MoE 層沒有採用 Switch Transformer 的 k=1 極簡路由，而是回歸了經典的 top-k 思想，並選擇了 k=2。這意味著，對於每一個輸入 token，路由器會選擇兩個最相關的專家來處理它。
架構佈局： GLaM 將標準 Transformer 層和 MoE 層交替堆疊。具體來說，是每隔一個 Transformer 層，就將其 FFN (前饋網路) 部分替換為一個 MoE 層。

圖表解讀 (Figure 2): 這是 GLaM 的模型架構圖。最底層的 MoE 模塊展示了其核心機制。對於輸入 token “roses”，門控模塊 (Gating) 會從 64 個專家（用藍色網格表示）中動態選擇兩個最相關的專家（FFN）。這兩個專家的輸出會被加權平均，然後傳遞給上方的標準 Transformer 層。對下一個 token，路由器又會重新選擇兩個最適合的專家。

選擇 k=2 而不是 k=1，是 GLaM 在設計上的一個重要權衡。作者認為，讓兩個專家協同工作，可以提供 $O(E^2)$ （E為專家數）的計算組合可能性，從而帶來更大的計算靈活性，儘管這會比 k=1 增加微小的計算和通訊成本。

五、關鍵概念解析#

稀疏激活 (Sparsely-Activated): GLaM 完美體現了這個概念。其最大的 1.2 萬億參數模型，在處理任何一個 token 時，實際激活的參數僅有 966 億，只佔總參數的 8%。這也是它能兼顧巨大容量和高效計算的根本原因。
Top-2 路由 (Top-2 Routing): 相比 Switch Transformer 的單選題，GLaM 做的是多選題（選2個）。這允許模型在處理一個 token 時，融合兩個不同「專家」的知識，潛在地增強了模型的表達能力。
總參數 vs. 激活參數 ( $n_{params}$ vs. $n_{act-params}$ ): 這是理解稀疏模型的關鍵。GLaM 的總參數( $n_{params}$ )高達 1.2 萬億，代表了其潛在的知識容量。而激活參數( $n_{act-params}$ )只有 966 億，這決定了其處理單個 token 時的實際計算量(FLOPS)。GLaM 的核心優勢來源於 $n_{params} \gg n_{act-params}$ 。
Decoder-Only 架構: 指模型只包含 Transformer 的解碼器部分，特別適合於自回歸式的文本生成任務，這也是 GPT 系列和 GLaM 共同的架構基礎。

六、實驗設計與結果分析 (圖表證據)#

GLaM 的實驗部分是這篇論文的亮點，它用清晰的圖表和數據，有力地證明了其設計的成功。

核心結論：性能更高，成本更低
圖表解讀 (Table 1 & Figure 1d): 這是論文的「王牌」圖表，直接將 GLaM 與 GPT-3 進行了正面對決。
- 成本上 (左側表格和右側條形圖): GLaM 的訓練能耗 (456 MWh) 僅為 GPT-3 (1287 MWh) 的三分之一。單個 token 的推理計算量 (180 GFLOPS) 僅為 GPT-3 (350 GFLOPS) 的一半左右。
- 性能上 (左側表格): 在 29 個 NLP 任務的平均分上，GLaM 在零樣本、單樣本、少樣本三種設定下，全面超越 GPT-3。
各類任務上的普遍優勢

圖表解讀 (Figure 1a, 1b, 1c): 這組圖展示了 GLaM 相較於 GPT-3 在不同任務類別上的性能提升百分比。可以看到，在絕大多數類別上（綠色條），GLaM 都取得了正向的性能提升，說明其優勢並非來自於在個別任務上的僥倖，而是普遍存在的。
稀疏模型 vs. 密集模型的擴展法則

圖表解讀 (Figure 3a, 3b): 這兩張圖揭示了稀疏模型和密集模型的 scaling law 差異。橫軸是每個 token 的計算量 (GFlops)，縱軸是任務得分。可以清晰地看到，MoE 模型（綠色線）始終位於密集模型（紅色線）的上方。這意味著，在消耗相同計算資源的情況下，MoE 模型能取得更高的分數，這是一條更高效的擴展路徑。
數據質量的重要性

圖表解讀 (Figure 3c, 3d): 論文還研究了數據質量的影響。作者們用經過濾的高質量數據和未經過濾的原始數據分別訓練模型。結果顯示，使用高質量數據（filtered，深色線）訓練的模型性能顯著優於使用海量但低質量數據（unfiltered，淺色線）的模型。這有力地證明了，即使對於萬億級別的模型，數據質量依然至關重要。

七、論文的核心貢獻與意義#

工程與性能的雙重勝利： GLaM 首次在如此大的規模上，用無可辯駁的數據證明了，精心設計的稀疏 MoE 模型可以在性能和效率上同時擊敗頂級的密集模型。它將 MoE 從一個「潛力股」變成了「績優股」。
確立了 Top-k MoE 的可行性： 如果說 Switch Transformer 證明了 k=1 的極簡可行性，GLaM 則證明了 k=2 這種更靈活的 Top-k 路由同樣是一條通往成功的康莊大道，為後續的 MoE 模型設計提供了更多選擇。
強調了 Scaling 的多維度性： GLaM 的成功再次強調，模型的擴展不應只關注計算量，還應關注參數容量、數據質量等多個維度。它提供了一個在多個約束（性能、成本、能耗）下進行優化的典範。