10901 words
55 minutes
A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications

前言#

因為目前研究黑洞反問題需要再次先往 MoE 的方向進行探索,所以選定了這篇最新的 Survey 進行閲讀與總結:A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications。最後關注專家模型之間特徵融合的部分。

一、核心異構解構:低數據環境下的異構先驗融合#

1.1. 形式化問題定義#

為穩定正定逆行的科研工作——利用改進的即插即用 (Plug-and-Play, PnP) 算法達成黑洞成像——提供一套系統性的特徵融合策略。根據所面臨的挑戰,我們將問題進行如下形式化定義:

給定一個由N個訓練好的、固定的先驗模型構成的集合 P={P1,P2,...,PN}P = \{P_1, P_2, ..., P_N\},其中,每個先驗模型 PiP_i 都是一個函數,它將輸入數據 zz (在PnP算法的疊代過程中,這通常是帶有噪聲的圖像)映射到一個先驗分數或一個經去噪的輸出 Pi(z)P_i(z)。我們的目標是找到一個融合函數 ϕ\phi,它能有效地聚合所有先驗模型的輸出,以生成最終的最佳化圖像 yy。具體而言,該融合過程可以表示為:

y=ϕ(P1(z),P2(z),...,PN(z);x)y = \phi(P_1(z), P_2(z), ..., P_N(z); x)

其中,融合函數 ϕ\phi 的性能由其生成圖像 yy 相對於真實圖像 (ground truth) xx 的峰值信噪比 (PSNR) 來衡量。學習 ϕ\phi 的主要約束條件在於:

  1. 數據稀缺性:可用於訓練 ϕ\phi 的真實圖像/標籤樣本僅有1000張,測試樣本1000張。
  2. 先驗異構性假設:置信每個先驗模型 PiP_i 都包含對最終圖像質量有用的獨特資訊,因此融合策略必須能夠利用所有先驗的貢獻。
  3. 推斷階段應用:融合函數 ϕ\phi 必須在PnP算法的疊代推理過程中高效運行。

1.2. 傳統融合框架的不適用性分析#

專家混合 (Mixture-of-Experts, MoE) 模型的核心思想是“分而治之”:透過一個門控網路 (gating network) 或稱路由 (router) 將輸入數據動態地分配給最相關的專家子模型。經典MoE的設計目標是讓Top-1路由,即為每個輸入選擇那個最拿分的K個專家進行加權。

然而,對於當前所面臨的挑戰,這種標準的“硬”路由機制存在著根本的不適用性,其核心問題在於其內含的競爭性和排他性。Top-K路由本質上是一個專家間的“零和”或“贏者通吃少數”的機制,這與您根據問題作出的:“為特定的輸入數據啟用一個或少數幾個專家,而其他專家則完全不參與計算”。這直接導致了您對“能夠學習部分專家無法啟用/選擇”的同意。

這種機制與項目基本理念——即“充分整合每個源所不可或缺的知識”——完全相悖。在一個標準的MoE應用場景中,專家們通常是在同一個大規模、多領域的資料庫上共同訓練的,它們最終會學會各自所專長的領域(比如有的擅長人臉,有的擅長貓狗)。但場景則面臨著根本性的、本質性的不同:N個先驗模型是異構的,它們是在完全不同(儘管可能存在部分重疊)的數據和任務上預訓練的,擁有著本質上不同的知識儲備(比如,一個是物理模型,一個同時具有物理和圖像低階特徵的複合對象)。可能需要同時借鑑多個專家所包含的先驗知識。例如,利用“百角”先驗平滑的電漿環的某些邊緣,同時利用“超人臉”先驗來增強星雲的某些角。在一個信奉“其外的一Top-K路由機制,會強烈模型在這些玉石的、互補的知識源之間做出艱難的選擇,從而遺失關鍵資訊,無法提升PSNR。

1.3. 異構相容性的雙重困境#

面臨的異構性根源與該異構性在這兩個交互條件的交織中加深,這使得問題變得尤為棘手。

  1. 根源異構性帶來的語義鴻溝:MoE框架的成功常在於其在處理多模態和知識的領域的能力。然而,所面臨的異構性程度則深刻地:在一個輸入實例的面前,“優先之間存在巨大的語義鴻溝。這意味著,一個場景的融合機制(例如,基於輸入圖像某些特徵的線性分類器)很難學習到“一個有意義的映射,輸入圖像的某個局部特徵(例如明亮的亮度或梯度)與一個“先驗的”專門知識”之間不存在直接、線性的決策。因此,任何有效的融合機制都必須能夠駕馭這種“語義鴻溝”,理解每個先驗的抽象功能,而不僅僅是匹配輸入的低階特徵。

  2. 數據稀缺性導致的訓練困境:學習一個能夠跨越語義鴻溝的有效的路由/融合非常難。我們所面臨的困境非常極端:然而,只有1000個訓練樣本。這遠遠少於訓練魯棒MoE框架所需要的(比如Google的MoE學習,通常需要數十億樣本)。在這種數據貧乏、數據量比你少1000倍狀況的訓練環境是及其致命的。從而在100個測試樣本上表現不好,置信比較低的推測:因為欠擬合的融合,甚至是分解成為了隨機猜測。學習一個魯棒的LoRA算是一個重大成功的學習率來解決方案來才能成功。策略必須具備強大的歸納偏置 (inductive bias),或須利用專為數據高效設計的學習範式。

1.4. 核心思路與解決方案#

綜合以上分析,解決方案不能是一個“差”的,或“現有MoE的”。它必須是一個混合系統,該系統能夠將專家知識的表徵與融合機制的學習分離開來,並且融合機制本身必須採用數據高效的學習範式進行訓練。

問題的癥結並不在於簡單擴展“獲勝者”的數量,將Top-K路由中的K值“調高”或失敗了,那麼核心設計理念必須轉向“加權組合”,問題不再是“應該使用哪個專家?”,而在於“對於當前輸入,應該如何為各個專家的貢獻賦予權重?”。

學習這些權重本身就是一個棘手的回歸或分類任務。在僅有1000個樣本的情況下完成這個任務,是極具挑戰的。我們的結合 《MuLin - 2025》這篇綜述中不僅僅談了MoE的基礎架構。還深入探討了解決多任務學習模型/範式中的問題,其中元學習 (Meta-Learning)持續學習 (Continual Learning) 正是為了解決數據效率和知識保留問題而設計的。

由此,我們確立了本攻略的核心技術路線:我們將融合權重學習的建模學習中的真諦,來訓練一個“軟”的、MoE風格的門控/組合模組,這個模組在元學習的理念指導下,指導我們從稀缺的門控泛化設計,達到數據節約訓練、再到珍貴的黑洞數學與物理的先驗中。

二、高級門控與專家啟用策略:確保所有先驗的有效貢獻#

為了解決標準MoE路由中“專家啟用”的低效問題,我們必須採用能夠確保所有先驗模型都有機會參與到最終決策的機制。本章將深入探討幾種高級門控和啟用策略,它們從“選擇性”轉向“包容性”,為融合異構先驗提供了堅實的基礎。

2.1. Soft MoE範式:一個基礎性的解決方案#

Soft MoE 提出了一種與傳統“硬”路由截然不同的“軟”分配機制,這為您的同質提供了一個基礎性的解決方案。

核心機制:Soft MoE不再為每個輸入token(在您的場景中,可以是一個圖像塊或者甚至整張噪聲圖示)分配給離散的專家,相應,它的工作流程如下:

  1. 權重計算:對於每個輸入 zz,門控網路會計算其與所有N個專家之間的線性相關性。這些權重是連續的,而非二進制的。
  2. 輸入槽集成:接下來,系統會生成一組“輸入槽” (input slots)。每個輸入槽合併輸入並輸入其某個部分,而非是所有輸入token的加權組合。
  3. 專家處理:每個專家處理的是包含經過加權混合後的“輸入槽”,而不是獨立的、離散的輸入。

在您的PnP應用中,這個過程可以被適配為:對於當前的疊代圖像 zz,一個門控網路計算出一組權重(w1,w2,...,wN)(w_1, w_2, ..., w_N),其中 wi=1\sum w_i = 1,然後,最終的融合輸出 yy 是所有先驗模型輸出的加權平均:

y=i=1NwiPi(z)y = \sum_{i=1}^{N} w_i P_i(z)

直接適用性

  • 軟性加權:通過設計,Soft MoE確保了每個先驗模型都對其最終輸出有貢獻,其影響力由學習到的權重 wiw_i 動態調節。這完美地解決了Top-K路由的專家丟棄/沉默問題。
  • 最佳化友好:與Top-K這類離散和通常不可微的操作不同,Soft MoE的加權平均過程是完全可微的。這為您在小數據集上訓練門控網路提供了一個更平滑、更穩定的最佳化環境,降低了訓練難度。
  • 非排他性:門控網路輸出的非排他性。

儘管Soft MoE提供了基礎的加權框架,但門控網路本身的設計至關重要。標準的Softmax門控通常使用一個簡單的線性變換來計算權重,這對於處理您面臨的極端異構性是明顯不夠的。輸入圖像的低階特徵與“人臉識別”先驗的專業領域之間缺乏簡單的線性關係。因此,我們需要更強大的非線性門控函數。

GShard中的餘弦路由器 (Cosine Router) 提供了一個強有力的解決方案,其核心機制是路由由向量空間定義為一個在線性模型空間中的相似度驅動的。

  1. 專家嵌入:為每一個固定的先驗模型 PiP_i 學習一個靜態的、可訓練的嵌入向量 EiE_i。這個向量 EiE_i 可以被看作是該先驗模型所代表的“知識領域”或“概念”的數學表示 (例如,EfaceE_{\text{face}}, EsparseE_{\text{sparse}}, EastrophysE_{\text{astrophys}})。
  2. 輸入嵌入:門控網路(一個小型的神經網路)學習一個映射函數,將當前的輸入圖像 zz 投影到與專家嵌入相同的超球面空間中,得到一個輸入嵌入 EzE_z
  3. 相似度計算:通過計算輸入嵌入 EzE_z 均與每個專家嵌入 eie_i 之間的餘弦相似度,來決定每個先驗的權重。相似度越高,權重越大。公式如下:
gi(x)softmax(EzTeiτ)g_i(x) \propto \text{softmax}\left(\frac{E_z^T e_i}{\tau}\right)

其中 τ\tau 是一個可學習的溫度參數,用於控制權重分布的銳度。

這種機制的創新之處在於,它將門控網路的任務從“對輸入數據進行分類”轉變為“理解每個專家的概念,並判斷當前輸入與哪個概念最相關”。它不再試圖在輸入像素和“百角先驗”的複雜決策邊界間尋找割裂,而是構建了一個更有意義的“專業知識-圖像空間”。在這個空間裡,“人臉”和“超解析度”這些異構的概念可以共存,而門控網路則學習如何對於重建黑洞的特定區域,映射概念上的“專業知識”更為適用。這是處理根源異構性的關鍵。

2.3. Top-P路由的動態專家選擇#

雖然我們期望所有專家都有用,但也存在某些下,並非所有專家都與當前輸入相關,啟用完全不相關的專家可能會引入噪聲。Top-P路由策略 提供了一個自適應的機制,可以動態地決定啟用其貢獻算作的專家數量。

機制

  1. 門控網路照常計算所有N個專家的啟用分數,並將其歸一化為機率分布。
  2. 對這些機率從高到低排序。
  3. 按照排序後的順序,累積機率直到總和超過一個預設的閾值 PP (例如,P=0.9P=0.9)。
  4. 所有被累加過的專家都被啟用。

自適應的 “Soft Top-P” 融合: 我們可以將Top-P路由與Soft MoE的思想結合,形成一種“Soft Top-P”融合策略:

  1. 門控網路(例如,餘弦路由器)為所有輸入 zz 先驗計算得分。
  2. 透過Softmax將得分機率分布 (p1,p2,...,pN)(p_1, p_2, ..., p_N)
  3. 確定Top-P的專家子集 PtopP_{top}
  4. 對於子集 PtopP_{top} 中的專家,對其原始得分進行重新歸一化,使得它們的新權重之和為1,這在歸一化的操作作為它們的最終權重 w~i\tilde{w}_i
  5. 對於不屬於 PtopP_{top} 中的專家,將其權重 wiw_i 設為0。
  6. 最終融合輸出仍然是所有先驗輸出的加權平均 y^=iTop-PwiPi(z)\hat{y} = \sum_{i \in \text{Top-P}} w_i P_i(z)

這種融合策略在Soft MoE的完全參與和傳統路由的稀疏啟用之間取得了理想的平衡。它允許在每個推理步驟中,動態地忽略那些置信度低的先驗,從而可能減少噪聲並提升計算效率,同時確保了最優信的、領先被能夠以加權的方式共同融合。

三、專家協作與知識整合的架構設計#

除了設計先進的門控網路,我們也可以透過重構智慧體的頂層架構來促進異構先驗之間的協作與知識整合。本章節將借鑑持續學習等領域中的成熟思想,提出幾種為管理這些多樣化專家知識而量身設計的架構。

3.1. ViMoE的共享專家概念:一種促進泛化的架構實驗#

核心思想:ViMoE架構 在處理任務時引入了一個**“共享專家” (shared expert) 的概**念,這個共享專家負責處理所有任務都需要用的通用基礎性知識,而其他“專業專家” (specialized experts) 則專注於處理特定的、差異化的知識。這種設計透過強行一個模型部分的通用性,顯著提高了模型的訓練效率。

在當前場景,由於先驗是預訓練好的,無法從頭訓練一個真正的共享專家,但是,我們可以指定一個現有的先驗模型作為“偽共享專家”,理想的候選者應該是那個在具有最多樣性或最多樣性的數據上訓練的模型,例如物理數據驅動等。這個先驗模型可能已經學會了許多基本結構、點光源和背景噪聲的通用物理或統計規律,這些對於重建黑洞的許多方面都至關重要。

該配置的框架將如下組織:

  1. 基礎組件:將指定的共享專家(如 PgalaxyP_{\text{galaxy}})的輸出 Pgalaxy(z)P_{\text{galaxy}}(z) 作為所有預測的基礎或基線信號。
  2. 殘差學習:將其他所有 N1N-1 個專業專家(如 PplaneP_{\text{plane}}, PphotonsP_{\text{photons}} 等)的輸出,透過一個門控網路進行加權組合,形成一個“殘差”或“調製”信號。
  3. 最終整合:最終的輸出是基礎信號與這個調製信號的結合。例如:
y=Pgalaxy(z)+ispecializedwiPi(z)y = P_{\text{galaxy}}(z) + \sum_{i \in \text{specialized}} w_i P_i(z)

這種架構施加了一個強大而有用的歸納偏置:模型首先依賴於最可能相關的通用先驗信號(感覺),然後利用其他高度專業的、看似無關的先驗來對這個基線進行微小的矯正和補充。這讓整個門控網路從頭開始學習如何平衡所有 NN 個異構先驗變得容易得多,特別是在小樣本情況下。

3.2. MOTE的專家間門控票選機制:提升推理時強健性(不太符合)#

核心機制:MOTE框架為持續學習而設計,它在推理階段採用了——個“專家同行投票機制” (Expert Peer-Voting Mechanism) 來增強特徵的強健性並減少小樣本的訓練偏差,其核心思想是透過借鑑值得信賴的專家來進行審查。

在場景中,這個機制可以被用於門控網路的輸出階段。我們可以構造一個小型的、獨立的“投票網路” (voter network),與直接作用於輸入圖像 zz 的門控網路不同,投票網路的的工作流程如下:

  1. 前饋傳播:對於給定的輸入圖像 zz,首先通過所有 NN 個先驗模型 {P1,...,PNP_1, ..., P_N} 進行一次完整的前向傳播,得到它們各自的輸出或中間特徵層 {O1,...,ONO_1, ..., O_N}。
  2. 投票輸入:將這些輸出 {O1,...,ONO_1, ..., O_N} (可能經過扁平化、池化等操作) 拼接起來,作為投票網路的輸入。
  3. 權重生成:投票網路(例如,一個小型MLP)的輸出是N個權重 {wiw_i},用於最終的加權平均。

這種方法的精妙之處在於,它將權重決策的依據從輸入圖像的低階空間轉移到了先驗模型的輸出空間。先驗模型的輸出空間可能是一個“資訊富集區”,更易於找到線性的決策空間。投票網路能夠觀察所有先驗對於當前輸入圖像 zz 給出的“回答”(即它們的輸出),並基於這些“回答”的相互關係來判斷各自的“可信度”。例如,如果 PgalaxyP_{\text{galaxy}}PplaneP_{\text{plane}} 的輸出在某個區域都呈現出強烈的梯度結構,而 PnoneP_{\text{none}} 的輸出是隨機噪聲,投票網路就可能學會為前兩者賦予更高的權重,這使得整合決策更加動態和情景感知。

3.3. 專家親和度:一種附加正則化與動態加權的策略#

核心概念:在持續學習中,專家合併策略 通過識別社會兩個最常被選的專家的專長,並用合併成新的精英去更新最不常用的專家,來防止特徵冗餘和專家退化,這也是一個在訓練過程中動態地減少專家的策略。

概念轉化:你可以將在學習歷史中更穩定的基礎概念。然而,其 underlying principle —— 識別並獎勵那些會“專家”——可以被轉化為一種強大的正則化技術,用於訓練您的門控網路的同時。

具體來說,在訓練期間,我們可以計算門控網路給出的權重 (wi)(w_i) 時,我們可以在損失函數中引入一個多樣性正則化項,這個正則化項懲罰那些輸出結果高度相關的先驗模型。例如,我們可以計算成對的餘弦距離 Pi(z)P_i(z)Pj(z)P_j(z) 之間的餘弦相似度或相關性係數,並將其加入到總損失函數中,與門控網路生成的權重 wiw_iwjw_j 相關聯,一個簡單的形式可以是:

Ltotal=LPSNR+λi,j,ijwiwjSimilarity(Pi(z),Pj(z))L_{\text{total}} = L_{\text{PSNR}} + \lambda \sum_{i, j, i \neq j} w_i w_j \cdot \text{Similarity}(P_i(z), P_j(z))

其中入是正則化強度。這個損失函數會鼓勵門控網路為其分配權重分散在那些輸出“多樣化”的先驗上,即使他們的權重只有其中一個,而同時擁有很高權重的權重。這迫使門控網路學習一個更加多樣化和互補的權重分配方案,避免地在“舒適區間的景觀”中實現了冗餘知識的合併“會並於”協同,而不是在參數空間中。這對於從有限的數據中學習一個泛化能力強的融合策略至關重要。

這種思想借鑑了協同學習的原則和規則,為我們提供了一個管理專家系統的成熟的思路:持續學習的核心挑戰之一就是如何管理一個不斷增長而且具有多樣性的“技能庫”(專家)。為了應對這個問題可以借鑑的一個重要思想,即精簡多樣化的“技能庫”。因此,這些管理專家庫有多樣性、冗餘性和可擴展性而提出的機制,可以直接被借鑑過來,作為對問題專門性管理的強力補充。

四、利用元學習與多任務範式實現低數據環境下的魯棒融合#

面對僅有1000個訓練樣本的嚴峻挑戰,傳統的監督學習方法極易導致融合模組過擬合,本章節將探討如何利用元學習和多任務學習的先進範式,來訓練一個僅需極少樣本便能泛化到新穎的、從未見過的融合機制。

4.1. 元學習融合機制:數據效率的關鍵(可嘗試)#

核心問題:直接在1000張真實圖像上訓練一個門控網路(無論是簡單線性路由還是投票網路)是極其危險的。模型很可能會“記住”這1000個樣本的特定組合模式,而不能學到普適的、能夠泛化到新數據上的融合法則。

元學習解決方案:元學習,或稱“學會學習” (learning to learn),旨在通過在大量相關任務上進行訓練,使模型能夠快速適應新任務的能力。我們可以應用基於最佳化的元學習(如MAML或Reptile)來訓練您的融合模組,具體參考艾文·中提到的方法。

訓練過程如下

  1. 構造元任務:將1000張訓練圖像劃分為大量的、小的“元任務” (meta-tasks),每個元任務模擬一個“小樣本學習”場景。例如,一個元任務可以包含一個包含5張圖像的“支持集” (support set) 和一個同樣包含5張圖像的“查詢集” (query set)。
  2. 元訓練循環:在元訓練的步驟中,隨機抽取一個元任務。
    • 內部循環:在支持集上,對融合模組的參數進行一次或幾次梯度更新,得到一個短期適應的“適應參數”。
    • 外部循環:使用這個“適應後的參數”,在查詢集上評估其性能(例如,計算PSNR損失),然後,根據這個查詢集上的損失,來更新融合模組的原始參數。

這個過程並非直接最佳化模型在訓練集上的平均性能,而是顯式地最佳化其從少量樣本中學習並泛化的能力。通過在數百個這樣的小任務上進行訓練,融合模組被迫學習一種通用的、與具體樣本無關的融合策略,使其成為一個“快速學習者”,能夠僅憑一對全新的測試圖像,也能完成準確的融合任務。

元學習的對象:是融合網路的元學習。元學習不會訓練模型識別的先驗模型。它的全部目標是訓練門控/投票網路本身的參數,使其具備在低數據情況下進行魯棒推理的能力。

4.2. 適配多門控專家混合 (MMoE):從多任務到多先驗的融合(不確定)#

核心概念:在多任務學習中,MMoE 為多個。

MMoE配備了一個獨立的門控網路。這些門控網路會學習一個共享的專家池中,為各自的任務學習不同的專家組合方式。這種設計有效地解耦了不同任務所需要的特定知識。

針對問題的概念反轉:我們可以將MMoE的邏輯進行“反轉”應用。您只有一個任務(黑洞圖像生成),但有多種類型截然不同的先驗。我們可以據此構建一個“多門控先驗融合” (Multi-gate Prior Fusion, MGPF) 架構。

架構設計

  • 與使用一個單一的、龐大的門控網路來同時處理所有 N 個異構先驗,不確定性根源的性質各異分明,並為每個塔設計一個專門的、更小的門控網路
  • 門控網路 (結構性/簡單):這個門控網路專門負責學習如何加權組合那些提供結構性或低檔資訊的先驗,就好像識別模型。
  • 專家塔層 (結構性/語義先驗):這個門控網路負責處理那些提供高級語義資訊的先驗,例如人臉(例如CIFAR-10模型)。
  • 整合層:最後一層,頂層的整合模組(可以是一個簡單的加權和,或另外一個小網路)將這兩個門控網路整合後的輸出進行最終組合。

這種分離、模組化的方法將一個複雜的 N 元融合問題,分解成了幾個更小、更簡單、同質性更強的子問題。每個門控網路只需要在少數幾個相對類似的先驗之間進行權衡,這大大降低了學習難度,從而在小樣本情況下更加魯棒。

這裡存在疑惑:如何去拆分子專家層?

4.3. 任務構造的深層思考#

簡單地將元學習概念應用到實踐上是不夠的,其成功的關鍵在於元任務的構造方式。元任務的設計必須能夠反映並挑戰模型在真實推理時所面臨的核心問題。

為了讓融合模組學會一種“真正通用”的融合原則,而不僅僅是記住特定先驗組合的權重,我們可以透過隨機化子集來構造元任務:

  1. 元學習單元“劇本”:在每個元訓練的“回合” (episode) 中,我們不僅僅是隨機採樣一批圖像。
  2. 隨機採樣先驗:我們還從N個總先驗總池中,隨機採樣一個小的先驗子集,隨機選擇其中的2個先驗。
  3. 子集融合訓練:在這個回合中,融合模組的任務只為這個被選中的先驗學習最佳的融合權重,並在支持/查詢集上進行訓練。
  4. 循環往復:在下一個回合中,我們隨機採樣另外一個不同的先驗子集進行訓練。

通過在成千上萬個這樣不同的、隨機的先驗子集上進行訓練,融合模組被迫學習一個不依賴於任何特定、固定專家組合的、更抽象的融合參數。它學習的不再是“當我有A、B、C、D時應該怎麼做”,而是一種“當擁有某些特性的先驗時,我應該如何評估和組合它們”。這種方法極大地增強了模型對“小數據上做元老化”,並使其能夠更好地泛化到未知的先驗組合中。

五、參數高效策略:用於先驗適配與集成的輕量級方案#

訓練一個作用於大型先驗模型輸出的獨立的融合學習方法框架是採用元學習,其可訓練參數也可能對小數據量來說構成挑戰。本章節介紹一種更為激進的參數高效策略——MoE-Adapters框架,它通過引入微小的、可訓練的“適配器”模組,將學習任務的規模壓縮至毫秒。

5.1. MoE-Adapters框架:連接預先驗的輕量級介面#

核心概念:該框架最初為大型模型(例如最近的自適應適應)其他核心思想是:在整個訓練過程中,凍結龐大的預訓練模型,僅在其內部插入一些小型的、可訓練的“適配器” (Adapter) 模組。然而,MoE路由是在這些適配器和適配器之間進行運算和組合,而不是在整個模型之間。

戰略性應用:這個概念為同質提供了一個極其強大的參數高效的解決方案。具體實施步驟如下:

  1. 凍結所有先驗:將您的全部 N 個先驗模型 PiP_i 的參數完全凍結,不參與任何梯度更新。
  2. 附加適配器:為每個先驗模型 PiP_i 的輸出端附加一個專屬的、小型的適配器模組 AiA_i。這個適配器可以是非常簡單的結構,例如幾個小型的殘差層或一個極簡的瓶頸MLP。
  3. 重定義融合任務:融合任務現在轉變為學習一個MoE路由,該路由生成權重來組合這些適配器的輸出,而不再是原始先驗的輸出。最終的生成圖像 yy 表示為:
y=i=1NwiAi(Pi(z))y = \sum_{i=1}^{N} w_i A_i(P_i(z))

關鍵優勢

  • 極低的訓練成本:整個系統中需要訓練的參數僅僅限於 N 個小型適配器 AiA_i 和一個路由網路。這些參數的總量可能只有原始先驗模型總參數量的千分之一甚至更少,使得在1000個樣本上進行有效訓練成為可能。
  • 保護先驗知識:強大的預先驗模型在被完整保留,完全避免了微調過程中可能發生的“災難性遺忘”或知識汙染風險。
  • 提供靈活性與對齊:適配器模組不僅僅是參數量的減少,它們扮演著一個至關重要的角色。

5.2. 適配器與元學習的終極組合#

為了在極限約束條件下達到最佳效果,我們可以將參數高效的適配器策略與數據高效的元學習策略結合起來,這將構成一個專門為您的問題量身訂製的、完整的解決方案:使用元學習來同時訓練適配器參數集 {Ai}\{\mathcal{A}_i\} 和組合它們的MoE路由。

在這個終極框架中,元學習的內循環將更新適配器和路由的臨時參數,而外循環根據環境根據查詢集上的性能來更新它們的初始參數,這確保了適配器和路由都能被最佳化為能夠從極少量的數據中快速學習到有效的跨先驗轉換和融合策略。

5.3. 適配器的深層作用:從模型融合到特徵空間對齊#

適配器方法的真正核心價值遠不止於參數效率,它從根本上改變了問題的性質,將一個棘手的“模型融合”問題,轉化為一個更容易處理的、特徵空間對齊” (feature space alignment) 問題。

直觀地講,一個適配器 AiA_i 就像一個給預先訓練模型的輸出進行加權平均,在語義上是缺乏靈活性的,因為它們特徵空間可能是完全不相關的。未對齊的,一個像素級的算數上的妥協甚至在人臉模型中可能代表“眼睛”,而在銀河模型中可能代表“恆星”。

適配器模組 AiA_i 在與路由共同訓練的過程中,扮演了“特徵翻譯器”的角色。整體的PSNR損失會透過路由網路反向傳播到每個適配器,這種端到端的訓練壓力,迫使適配器學習一種轉換:

  • AfaceA_{face} 學習將“人臉”特徵的輸出轉換為一種更通用的、與黑洞重建任務相關的“視覺表示”。
  • AgalaxyA_{galaxy} 學習將 PgalaxyP_{galaxy} 輸出的“天文特徵”也轉換為同一種“視覺表示”。

協同特徵轉換:當 Aface(Pface(z1))A_{face}(P_{\text{face}}(z_1))Agalaxy(Pface(z1))A_{galaxy}(P_{\text{face}}(z_1)) 產生了特徵的時候向量時,這意味著它們都在當前輸入的某個區域識別出了對最終重建有用的、共同的底層結構(例如,一個銳利邊緣或一個平滑的梯度)。

因此,適配器實際上是在學習一個統一的、共享的特徵空間,所有異構的先驗知識都被映射到這個空間中,路由的任務隨之變得異常簡單:它不再需要在混亂、異構的原始輸出空間中做決策,而只需在這個全新的、對齊的、語義一致的加權組合,這使得學習難度大大降低,並最小化小樣本上求得的解。

六、面向PnP黑洞圖像生成的融合方案#

本章將分析您三個具體的、可操作的融合策略,並提供一個對比分析表,以助您決策。

表1:三種融合策略的對比分析#

特性策略A: 元學習軟門控集成策略B: 適配器-元學習的共享知識框架策略C: 持續學習啟發式同行投票機制
核心概念Soft MoE + 元學習,非排他路由+元學習MoE-Adapters + 共享專家 + 元學習MOTE同行投票 + 親和度正則化
可訓練組件僅門控網路N個小型適配器 + 路由僅投票網路
數據效率極高 (元學習驅動的軟複雜)高 (路由學習在適配器輸出空間)優 (投票網路輸入維度大)
參數效率優 (門控網路小)極高 (適配器+路由總參數極少)高 (投票網路輸入維度大)
先驗處理中等 (直接在原始輸出融合)中等 (通過適配器調和後融合)重 (投票網路輸入維度大)
融合優勢核心最清晰、最直接最佳化泛化能力參數最高效、甚至能對齊特徵空間決策基於先驗的實際輸出,可能更具強健性
潛在風險路由功能可能難以處理極端異構性適配器的設計至關重要,可能成為瓶頸投票網路的輸入維度高,可能需要更多數據

6.1. 策略A:元學習軟門控集成 (Meta-Learned Soft Gating Ensemble)#

這是最具直接且理論上最優美的方案,它將學習的重點完全集中在構建一個單一的、泛化能力強的門控函數上。

  • 架構
    1. 門控網路:構建一個單一但功能強大的門控網路。該網路可採用餘弦路由器架構,以有效處理先驗的異構性,它接收當前PnP疊代的圖像 zz
    2. 權重生成:餘弦路由器利用輸入圖像 zz 與預先學習到的每個專家嵌入進行比較,通過softmax生成一組 NN 個權重 (w1,...,wN)(w_1, ..., w_N)
    3. 融合:最終的輸出是所有 NN 個先驗模型輸出 Pi(z)P_i(z) 的Soft MoE加權平均: y=i=1NwiPi(z)y = \sum_{i=1}^{N} w_i P_i(z)
  • 理由
    • 所見先驗模型 PiP_i 保持凍結
    • 僅門控訓練 (包括其輸入投影部分和專家嵌入) 使用基於最佳化的元學習,在1000張圖像的數據集上進行訓練,如第4.1節所述。
    • 該方法直接面向數據稀缺性所導致的泛化挑戰,最大程度地將可訓練參數集中在了問題的核心上,而非去追求邊界的收益,這套思路提供了強大的嚴謹性工具

6.2. 策略B:適配器引導的共享知識框架 (Adapter-Mediated Shared Knowledge Framework)#

此策略將參數效率推向極致,透過將學習任務限制在更小的適配器模組上,最大程度地降低了對數據的依賴。

  • 架構
    1. 參數高效適配器:採用MoE-Adapter架構,所有
    2. NN 個先驗模型是凍結的,為每個先驗模型的輸出端附加一個小型、可訓練的適配器模組 AiA_i
    3. 共享專家(先驗 + PsharedP_{\text{shared}}) (例如,PgalaxyP_{\text{galaxy}}) 指定為一個“共享專家”,其適配器輸出。
    4. 路由融合:一個獨立的MoE路由網路學習如何組合其他 N1N-1 個專業適配器的輸出,以對基礎信號進行精細調整。
  • 理由
    • 所見先驗模型 PiP_i 保持凍結
    • 適配器和路由:所有可訓練網路均會被訓練,由於可訓練參數極少,可以首先嘗試標準的監督學習,若仍有過擬合跡象,則切換到元學習範式。
    • 該策略通過特徵空間對齊,從根本上簡化了融合問題,它是對抗過擬合最安全的方案,特別適合在數據極度稀缺的情況下啟動實驗

6.3. 策略C:持續學習啟發的同行投票機制 (Continual Learning-Inspired Peer-Voting Mechanism)#

此策略的獨特之處在於其決策機制,它基於先驗模型對當前輸入的“反應”而非輸入本身,可能更擅長捕捉實例間的細微關係。

  • 架構
    1. 投票網路:採用MOTE同行投票概念,訓練一個一個小型的“投票網路”(例如,一個MLP)。
    2. 投票輸入:對於輸入圖像 zz,首先運行所有 NN 個先驗模型得到輸出 {Pi(z)P_i(z)}, … , {PN(z)P_N(z)}。將這些輸出(或其特徵表示)拼接起來,作為投票網路的輸入。
    3. 權重生成:投票網路的輸出是用於最終加權平均的 NN 個權重。
  • 理由
    • 所見先驗模型 PiP_i 保持凍結
    • 僅投票網路在1000張圖像的數據集上進行訓練。
    • 該方法將決策的依據從輸入的像素空間轉移到更具資訊量的先驗輸出空間。這可能使其在處理複雜的、非線性的先驗和信號關係方面具有優勢,但或許也是一個很好的實驗起點

七、實驗考量與實驗設計#

為了對前幾章提出的融合策略的科學性和有效性,本章將提供具體的實驗考量和實驗設計方案。

7.1. 損失函數的設計#

  • 主要損失函數:由於您的最終目標是提升PSNR,最直接的主損失函數是均方誤差 (MSE) 損失或L1損失(平均絕對誤差)。L1損失通常對異常值不那麼敏感,可能在圖像重建任務中產生更清晰的邊緣。

    Lp=1H×Wi=1H×W(yiy^i)pL_p = \frac{1}{H \times W} \sum_{i=1}^{H \times W} (y_i - \hat{y}_i)^p

    其中 p=1p=1p=2p=2yy 是融合模型的輸出,y^\hat{y} 是真實圖像。

  • 輔助損失函數:您可以引入Focal損失(focal balancing loss)來動態地調整不同像素的重要性,在其可以(像素…)。為了防止融合模組過度自信或產生“路由塌陷”(gating collapse,即門控網路總是輸出僅啟用少數幾個先驗的平凡解),可以引入一個——

  • 梯度正則化損失:該損失作用於門控網路輸出的權重分布 {wi}\{w_i\}

    Lentropy=i=1Nwilog(wi)L_{\text{entropy}} = - \sum_{i=1}^N w_i \log(w_i)

    最大化這個熵會鼓勵權重分布更均勻,從而確保更多的先驗被利用。總損失函數可以表示為 Ltotal=LPSNR+γLentropyL_{\text{total}} = L_{\text{PSNR}} + \gamma L_{\text{entropy}},其中 γ\gamma 是一個小 的超參數,用於平衡圖像保真度和先驗利用的多樣性。

7.2. 架構示意圖#

為了清晰地展示所提議,以下是三種策略的架構圖:

  • 策略A (元學習軟門控集成)
    • 輸入z -> 元學習門控網路 -> N個權重 wiw_i
    • N個先驗 -> N個輸出 Pi(z)P_i(z)
    • 加權求和 -> 最終輸出 y
  • 策略B (適配器引導的共享知識框架)
    • 輸入z -> 路由網路 -> N-1個權重
    • N-1個先驗 -> 適配器 -> N-1個修正的輸出
    • 共享先驗 -> 適配器 -> 共享的輸出
    • 加權求和 -> 最終輸出
  • 策略C (持續學習啟發的同行投票機制)
    • 輸入z -> N個先驗 -> N個輸出 Pi(z)P_i(z)
    • N個輸出 (CONCATENATION) -> 投票網路 -> N個權重 wiw_i
    • 加權求和 -> 最終輸出 y

7.3. 實驗設計與對照研究#

一個嚴謹的實驗設計對於驗證每個策略及其組件的有效性至關重要。

  1. 基線模型 (Baselines)

    • 基本平均:所有先驗輸出的算術平均值,這是一個必須超越的簡單基線。
    • 簡單路由方案:一個經過試錯並且在測試數據上驗證過PSNR的交互過程,並用LoRA調節參數,將它們作為對比,可以量化新策略的改進程度。
    • 單一最佳先驗:在測試集上評估每個單一先驗的性能,並將表現最好的一個作為基線。
  2. 消融研究 (Ablation Studies)

    • 針對策略A

      1. 門控網路對比:將元學習訓練的餘弦路由器與使用相同方式訓練的線性路由器進行比較,以驗證非線性門控在處理異構性上的優勢。
      2. 學習範式對比:將元學習訓練的餘弦路由器與使用傳統監督學習訓練的同一個餘弦路由器進行比較,以驗證元學習在數據效率上的貢獻。
    • 針對策略B

      1. 共享專家驗證:訓練一個不指定共享專家,而是平等對待所有適配器輸出的版本,與原始架構進行比較,以驗證“共享專家”架構對穩定訓練的貢獻。
      2. 適配器作用:訓練一個沒有適配器,而是路由直接作用於原始先驗輸出的版本,以證明適配器在特徵空間對齊中的關鍵作用。
    • 針對策略C

      1. 正則化驗證:訓練一個沒有多樣性正則化項的投票網路,並與一個沒有正則化項的版本進行比較,以量化其在促進權重多樣性,防止模式方面崩潰的效果。
  • 評估指標
    • 主要指標PSNR
    • 輔助指標:結構相似性指數 (SSM),以及對融合模組生成的權重分布進行可視化和統計分析,例如,可以分析對於不同結構(如強邊緣、平坦區域)的圖像塊,哪些先驗被賦予了更高的權重。這有助於深入理解融合模組的行為模式,並為進一步的改進提供洞見。
A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications
https://huangno1.github.io/posts/reading_2025_moe_survey/
Author
HuangNO1
Published at
2025-09-16
License
CC BY-NC-SA 4.0