Good Things Come in Pairs Paired Autoencoders for Inverse Problems

4046 words

20 minutes

Good Things Come in Pairs Paired Autoencoders for Inverse Problems

2025-08-21

Research

inverse

/

CV

/

PnP

/

Model

/

DDPM

/

PAE

/

OOD

/

DIFFUSION

/

Paper

一、引言：逆問題的挑戰與數據驅動方法的興起#

我繼續閱讀反問題相關的論文，剛好看到這篇 Good Things Come in Pairs Paired Autoencoders for Inverse Problems。中文名：<成對而生：用於逆問題的成對自編碼器>，而論文中添加了物理預測需要我們去學習。

1.1 定義問題：從觀測效應到根本原因#

逆問題旨在從間接的、受噪聲汙染的測量數據 ( $y$ ) 中推斷未知的根本原因（模型參數， $x$ ），其數學表達式通常為 $y = F(x) + \epsilon$ ，其中 $F$ 是正演運算元， $\epsilon$ 是噪聲。這些問題在科學和工程領域普遍存在，從醫學成像到地球物理勘探均有應用。

逆問題的一個根本性挑戰在於其“不適定性”（ill-posedness），即解可能不存在、不唯一，或對數據的微小擾動高度敏感。這使得求解過程必須依賴於專門的技術。

經典方法與局限性
- 變分方法：將問題構建為一個最佳化問題，形式為 $\min_x \mathcal{L}(y, F(x)) + \mathcal{R}(x)$ ，其中 $\mathcal{L}$ 是數據失配項， $\mathcal{R}$ 是編碼先驗知識（如平滑性、稀疏性）的正則化項。
- 貝葉斯方法：以機率方式構建問題，旨在求解後驗機率分布 $p_{\text{post}}(x|y) \propto p_{\text{like}}(y|x) \cdot p_{\text{prior}}(x)$ 。
- 局限性：對於大規模問題，這兩種經典方法都可能面臨計算成本過高的問題。此外，當最佳化目標函數為非凸時，它們容易陷入局部最優，導致求解困難或實際計算成本過高。

1.2 數據驅動解決方案的現狀：批判性回顧#

為了更好地凸顯成對自編碼器（Paired Autoencoder, PAE）框架旨在填補的技術空白，本小節將回顧現有的機器學習逆問題解決方法。

現有方法論回顧：
- 端到端方法：直接學習從數據到模型的逆映射 $\Phi: \mathcal{Y} \rightarrow \mathcal{X}$ ，這類方法功能強大，但通常像一個“黑箱”，並且需要大量成對的訓練數據。
- 展開最佳化：模仿經典最佳化算法的疊代過程，但將其中某些組件（如步長、近端運算元）替換為可學習的模組。
- 先驗學習（生成模型）：使用變分自編碼器（VAE）或生成對抗網路（GAN）等模型來學習模型空間 $\mathcal{X}$ 的生成器 $d_x(z)$ ，然後，透過在潛空間中進行最佳化來求解逆問題： $\min_z \mathcal{L}(y, F(d_x(z)))$ 。這種方法強制施加了強大的先驗，但最佳化過程缺乏一個良好的初始猜測。
- 物理資訊神經網路（PINN）：將控制系統的物理定律（如偏微分方程）作為軟約束整合到損失函數中。這類方法非常靈活，但訓練過程可能很困難，且泛化能力有限。

為了直觀地比較這些方法，下表總結了它們在訓練和推斷階段對正演運算元 $F$ 的依賴，以及對成對數據 $(x, y)$ 的需求。

方法	訓練時需要 $F$	推斷時需要 $F$	訓練時需要數據 $y$	訓練時需要成對 $(x, y)$
端到端網路	✓	✗	✓	✓
展開的端到端網路	✓	✓	✓	✓
學習正則化器（懲罰項）	✗	✓	✗	✗
學習生成器 (AE/VAE)	✗	✓	✗	✗
學習即插即用 (Plug-and-Play)	✗	✓	✗	✗
PINN	✓	✓	✓	✓
PAE (本文方法)	✓	✓	✓	✓

Table 1: 機器學習逆問題方法概述。該表改編自論文中的表1。✓ 表示需要，✗ 表示不需要。正演運算元 $F$ 通常涉及計算成本高昂的常微分/偏微分方程求解。

評述與定位：該表格清晰地揭示了不同方法之間的權衡。然而，一個顯著的遺漏是，本文未能將其與當前最先進的（SOTA）範式，如“即插即用”（Plug-and-Play, PnP）先驗和擴散模型（Diffusion Models）進行直接比較。PAE與PnP-擴散代表了兩種不同的哲學方法：

特性	成對自編碼器 (PAE)	即插即用擴散先驗 (PnP-Diffusion)
訓練數據	針對特定 $F$ 的成對樣本 $(x, y)$	無條件的 $x$ 樣本（通常來自大型公共數據集）
先驗模型	學習到的 $x$ -解碼器 $d_x$ ，與 $y$ -AE共同訓練	預訓練的、無條件的分數模型 $s_\theta(x,t)$
正向模型 $F$ 的使用	用於生成訓練數據；在LSI精煉中為可選項	在推斷的每一步驟中都需要，用於測量引導
推斷過程	快速的直接映射 + 可選的慢速精煉	慢速的、疊代的採樣過程
對新 $F$ 的靈活性	需要完全重新訓練	“即插即用”；使用相同的先驗，僅更換引導項
OOD偵測	內建的架構一致性度量	啟發式的，基於監控採樣過程

PAE是一種“任務特定”的方法，它為特定的物理過程 $F$ 從頭開始訓練一個高度訂製化的模型。相比之下，PnP-擴散方法則利用一個在大型通用數據集（如ImageNet）上預訓練的、與任務無關的生成先驗，並在推斷時透過數學方法將物理模型 $F$ “注入”到疊代求解過程中。這一根本性的哲學差異是評估本文貢獻的關鍵背景，但論文中缺乏對此的深入探討和實驗對比，構成了其主要的局限性。

儘管如此，該論文戰略性地將PAE框架定位為一種綜合性方法，它彌合了純數據驅動模型與傳統基於模型的（物理資訊的）方法之間的鴻溝。它利用數據學習一個強大的、具有正則化作用的解碼器 $d_x(z)$ 和一個高品質的初始猜測 $z_0$ ，然後在LSI步驟中明確使用正演模型 $F$ 進行最佳化。這種混合特性是其核心的理念貢獻。

二、PAE框架：架構、訓練與核心優勢#

本節將深入探討PAE框架的架構和工作機制。

2.1 核心架構：將數據和模型投影到潛空間#

該框架基於兩個獨立的自編碼器：

一個 $x$ -自編碼器 (編碼器 $e_x$ ，解碼器 $d_x$ )，用於學習模型參數 $x$ 的壓縮表示 $z_x$ 。
一個 $y$ -自編碼器 (編碼器 $e_y$ ，解碼器 $d_y$ )，用於學習觀測數據 $y$ 的壓縮表示 $z_y$ 。

其關鍵創新在於引入了連接這兩個潛空間的可訓練映射：

一個正向潛空間映射 $M: \mathcal{Z}_x \rightarrow \mathcal{Z}_y$ ，在潛空間中近似正演過程。
一個逆向潛空間映射 $M^\dagger: \mathcal{Z}_y \rightarrow \mathcal{Z}_x$ ，在潛空間中近似逆過程。

這些組件共同構成了端到端的代理模型：

代理正演模型: $F_{\text{surrogate}} = d_y \circ M \circ e_x$
代理逆模型: $F^\dagger_{\text{surrogate}} = d_x \circ M^\dagger \circ e_y$

在架構上，映射 $e_x, e_y, M$ 和 $M^\dagger$ 可以是複雜的神經網路，也可以是簡單的線性變換。論文指出，線性映射在實踐中通常已經足夠。

2.2 聯合訓練的協同效應：統一的損失函數#

整個網路通過最小化一個由四項損失加權求和的統一損失函數進行聯合訓練，如論文中方程 (21) 所定義：

$\min_{\theta} \alpha_{x} \mathbb{E}_{x \sim \pi_x} \mathcal{J}(d_x(e_x(x)), x) + \alpha_{y} \mathbb{E}_{y \sim \pi_y} \mathcal{J}(d_y(e_y(y)), y) + \alpha_{M} \mathbb{E}_{x \sim \pi_x} \mathcal{J}(d_y(M(e_x(x))), y) + \alpha_{M^\dagger} \mathbb{E}_{y \sim \pi_y} \mathcal{J}(d_x(M^\dagger(e_y(y))), x)$

$\mathcal{L}_{\text{recon}_x}$ : $x$ -自編碼器的重構損失。
$\mathcal{L}_{\text{recon}_y}$ : $y$ -自編碼器的重構損失。
$\mathcal{L}_{\text{forward}}$ : 代理正演模型的損失。
$\mathcal{L}_{\text{inverse}}$ : 代理逆模型的損失。

評述：這種聯合損失函數是強制兩個潛空間 $\mathcal{Z}_x$ 和 $\mathcal{Z}_y$ 實現語義對齊的關鍵機制。交叉映射項 ( $\mathcal{L}_{\text{forward}}$ 和 $\mathcal{L}_{\text{inverse}}$ ) 充當了強大的正則化器，迫使編碼器學習的表示不僅要有利於重構，還要相互相容，並與物理逆問題相關。如果自編碼器被分開訓練，它們各自的潛空間之間將不存在任何有意義的關聯。聯合訓練確保了潛空間“天生就適合後續的代理任務”，從根本上塑造了潛空間本身的性質。

2.3 關鍵優勢：無似然的質量評估與分布外 (OOD) 檢測#

大多數數據驅動方法是“無似然的”(likelihood-free)，難以信任結果或檢測分布外 (OOD) 的輸入。PAE框架通過其模組化架構提供了一套內部一致性度量指標，無需似然函數即可評估重構質量。這些指標源自論文中的方程 (22-24)，透過衡量新樣本與已訓練映射的一致性來工作：

數據自編碼器一致性: $\frac{\|d_y(e_y(y)) - y\|_2}{\|y\|_2}$
模型自編碼器一致性: $\frac{\|d_x(e_x(\hat{x})) - \hat{x}\|_2}{\|\hat{x}\|_2}$
代理正演一致性: $\frac{\|d_y(M(e_x(\hat{x}))) - y\|_2}{\|y\|_2}$
潛空間正向一致性: $\frac{\|M(e_x(\hat{x})) - e_y(y)\|_2}{\|e_y(y)\|_2}$
潛空間逆向一致性: $\frac{\|M^\dagger(e_y(y)) - e_x(\hat{x})\|_2}{\|e_x(\hat{x})\|_2}$

評述：這種OOD檢測能力是本文最重大的實用貢獻之一。在醫學成像或地球物理學等高風險領域，一個錯誤的“黑箱”預測可能導致嚴重後果。PAE提供了一個內建的品質指標“儀錶板”，使其從一個簡單的預測器轉變為一個具有一定自我意識的、更魯棒的系統。

2.4 推斷與最佳化：潛空間推斷 (LSI) 過程#

PAE的推斷過程分為兩個步驟：

步驟1：直接估計。通過代理逆模型快速獲得一個初始估計 $\hat{x}$ ： $\hat{x} = (d_x \circ M^\dagger \circ e_y)(y)$
步驟2：潛空間推斷 (LSI)。這個初始估計可能無法完美滿足物理約束 $F(x) \approx y$ ，因此，需要透過在潛空間中求解一個最佳化問題來進行最佳化 (方程28)：
$z_{\text{LSI}} \in \arg\min_{z} \frac{1}{2} \| (F \circ d_x)(z) - y \|^2 + \frac{\alpha}{2} \| z - z_0 \|^2$
這個最佳化過程透過一個高品質的初始猜測 $z_0$ 進行“熱啟動”(warm-start)，該猜測直接來自第一步的估計 (方程29)：
$z_0 \equiv (M^\dagger \circ e_y)(y)$

評述：LSI過程是數據驅動與模型驅動方法的優雅融合。它並未將數據驅動的直接預測視為最終答案，而是將其作為一個堅實、基於物理的最佳化的絕佳起點。至關重要的是，PAE提供了一個依賴於數據的、有意義的初始點 $z_0$ 。這與標準的生成模型（如VAE/GAN）形成對比，後者在最佳化時通常只能從一個隨機點或零點開始。這種在低維、結構良好的潛空間中進行的熱啟動最佳化，是PAE框架相對於其他生成式方法的一個明顯優勢。

三、框架擴展：用於不確定性量化的變分思想#

本節介紹兩種用於將不確定性思想融入PAE框架的方法。

3.1 變分集成自編碼器 (VPAE)：一個全機率模型#

這種方法將PAE框架的所有確定性組件替換為它們的機率性VAE對應物。訓練目標變成了一個由四個獨立ELBO項組成的複雜加權和 (方程43)。

評述：雖然在哲學上是更“純粹”的貝葉斯框架，但在訓練中有效平衡八個不同的損失分量可能極具挑戰性，對超參數敏感，並可能存在訓練不穩定的風險。

3.2 變分潛空間映射：一個務實的選擇#

這種方法採取了更為模組化的策略：自編碼器保持確定性，只有潛空間映射 $M$ 和 $M^\dagger$ 被建模為VAE。這允許一個更簡單的兩階段訓練過程。

評述：論文明確指出，這種方法“在經驗上被發現能給出更好的結果”。這揭示了一個關鍵的工程實踐：通常，隔離並建模不確定性的主要來源，比將整個系統機率化更有效。這種有針對性的模組化方法更加穩定和實用。

四、實驗驗證：從圖像修復到地震反演#

4.1 應用一：圖像修復與分布外檢測#

設定：從損壞的MNIST圖像中重構清晰圖像。OOD數據透過移除圖像中的整塊像素來創建。
關鍵結果：實驗成功證明，內部一致性度量能夠區分ID和OOD樣本（圖8）。

在Fashion-MNIST上進行的變分潛空間映射實驗（圖9）顯示，模型的不確定性（樣本方差)在被遮擋或模糊的區域最高，這正是期望的行為。

4.2 應用二：地震全波形反演 (FWI)#

設定：這是一個高度複雜的非線性逆問題，旨在從地震波場數據 ( $y$ ) 估計地下聲速模型 ( $x$ )。
關鍵結果：圖12和表2的結果明確顯示了LSI最佳化步驟的巨大益處。經過LSI後的最終重構比直接的PAE估計和基線反演都顯著更準確。此外，圖13展示了對更高噪聲水平的卓越強健性：即使測試數據的噪聲水平遠高於訓練數據，最佳化後的解仍然保持高品質。

方法	相對誤差均值 (標準差)	SSIM 均值 (標準差)
LSI (基本啟動)	0.085 (0.075)	0.87 (0.14)
LSI (熱啟動)	0.043 (0.043)	0.95 (0.07)
Table 2: 地震FWI問題的量化評估統計數據。該表改編自論文中的表2。

評述：地震實驗對強健性的展示（圖13）是最有力的證據。它表明學習到的解碼器 $d_x$ 不僅僅是一個解碼器，它還充當了一個強大的、學習到的正則化器。它將LSI最佳化限制在從訓練數據中學到的物理合理模型的流形上，有效地“去噪”了反演過程，並防止最佳化過程去擬合噪聲。