10098 words
50 minutes
物理懲罰項改進與重新梳理

一、前言#

因為目前我們需要將物理懲罰項梳理進我們的DPS改進算法中,作為一個遮罩讓整個項目變得更具備合理性,我需要在這篇文章中表述清楚:

  1. 我們要做的事情上存在的問題
  2. 我們為什麼要添加物理懲罰項,且物理懲罰項為什麼是創新點
  3. 黑洞具備哪些物理特徵
  4. 別人做了什麼工作,並達到了什麼效果,但是有什麼缺陷
  5. 我們的物理懲罰項是如何約束黑洞圖片生成過程中更符合黑洞物理特徵,並解決別人的缺陷

我們認為這個物理懲罰項是我們的創新點,一定是有用且具備合理性,我在講給師兄聽的時候一定是能說服師兄我在做的這個工作非常有道理。

二、DPS目前在黑洞問題上的缺陷#

2.1 觀測值數據上的物理約束#

  • 問題描述: 無論是真實的EHT觀測數據,還是我們人為設定的幾個物理參數,這些信息相對於一張百萬像素級別的圖像來說都是極其“稀疏”的。這意味著有無數張看起來完全不同、物理性質也可能大相徑庭的圖像,都能完美地滿足這些稀疏的觀測數據
  • DPS如何表現: 標準的DPS會利用觀測數據來引導生成過程。但如果引導信號本身就模稜兩可,模型就擁有了“過度的自由”。它可能會生成一張圖像,雖然符合了稀疏數據,但在數據未覆蓋的細節上“自由發揮”,從而違反了未被直接觀測到的物理規律。
  • 一個例子: 觀測數據可能只約束了黑洞陰影的大致尺寸,但並未精確約束其中心位置。因此,DPS可能會生成一張陰影尺寸正確、但整體圖像偏離中心的黑洞,因為它同樣滿足觀測數據,模型沒有理由不這樣做。

2.2 先驗模型的缺陷#

  • 問題描述: 擴散模型 p(x)p(x) 的強大之處在於它從海量數據中學到了“自然圖像”的先驗知識。在我們的場景中,它從模擬數據集中學會了“一個典型的黑洞圖像長什麼樣”。但這種學習是基於統計的,而非基於第一性原理的。模型知道黑洞“通常”在中心,但它不“理解”為什麼它必須在中心(因為引力是中心力)。
  • DPS如何表現: 當引導信號微弱時,模型會更多地依賴自己的先驗知識。但這個統計先驗是可能出錯的。如果訓練數據中存在一些微小的、不完美的例子,或者模型為了“走捷徑”而學到了一些錯誤的關聯,它就可能生成看似合理但物理上錯誤的圖像。
  • 一個例子: 模型可能從數據集中學到了“黑洞陰影周圍總有一圈亮環”,但它不理解這圈亮環的亮度分布其實由相對論性多普勒效應嚴格決定。因此,它可能生成一個亮度均勻、或者亮度隨機分布的亮環,這在視覺上可能很唬人,但在物理上是完全錯誤的

2.3 DPS 等類 PNP 算法的不穩定#

  • 問題描述: 逆問題本質上是**“病態的”(ill-posed),意味著解不唯一且對初始噪聲敏感**。微小的擾動可能導致最終生成圖像在物理屬性上有很大差異。
  • DPS如何表現: 從不同的初始隨機噪聲出發,DPS可能會收斂到多個不同的、但都滿足稀疏數據的解。這導致生成結果不穩定,無法保證每次生成的都是我們想要的那個“物理最正確的解”。

三、創新點:物理懲罰項#

添加物理懲罰項,正是為了精準地、強制性地解決剛剛描述的三大問題:

3.1 填補稀疏數據的「信息鴻溝」#

  • 如何解決: 物理懲罰項提供了獨立於觀測數據的、全新的、強大的信息源。當觀測數據在某個方面(如中心位置)「沉默」時,比如物理公式 P=kd2P = k \cdot d^2 則會「大聲疾呼」,任何偏離中心的嘗試都會受到巨大懲罰
  • 達到的效果: 它極大地壓縮了病態問題的解空間。在無數個滿足稀疏數據的解中,我們只保留那些同時滿足物理定律的極少數解,從而確保了結果的唯一性和準確性。

3.2 將模型的「統計先驗」提升為「物理洞見」#

  • 如何解決: 我們不再僅僅依賴模型自己模糊的、「統計性」的「感覺」。比如通過將 Φ=GM/r\Phi = -GM/r 或克雷奇曼變量 K1/αkK \propto 1/\alpha^k 等公式直接寫入損失函數,我們等於將**物理的定律強行注入到模型的「大腦」**中。
  • 達到的效果: 模型被迫從「模仿者」轉變為「遵守者」。它不僅要生成一張「看起來像」的圖,更要生成一張嚴格遵守引力中心論、時空曲率中心極值等基本法則的圖。這讓生成結果的物理保真度 (Physical Fidelity) 產生了質的飛躍。

3.3 賦予生成過程「魯棒性」和「可控性」#

  • 如何解決: 物理懲罰項是一個確定性的、可微分的函數,它為模型的優化提供了穩定、清晰的梯度。無論初始噪聲如何,這個「物理引力」都會穩定地將生成過程拉向正確的方向
  • 達到的效果: 生成過程變得更加穩健,結果不再隨機漂移,而是穩定地收斂到物理上最正確的圖像。此外,通過調整不同物理懲罰項的權重,我們還能主動地控制生成圖像所要表達的物理效應,極大地增強了模型的可控性。

四、別人針對黑洞圖片的研究#

目前,將AI與黑洞圖像結合的研究主要分為以下三類:

  • 圖像重建與參數估計
  • 物理模擬的代理模型/加速器
  • 基於GAN/Diffusion的純圖像生成

4.1 圖像重建與參數估計 (Image Reconstruction & Parameter Estimation)#

Map1.png

這是最著名、成果最顯著的方向,其代表就是**事件視界望遠鏡(Event Horizon Telescope, EHT)**項目。

  • 代表性論文:
  • 別人是怎麼做的: EHT並非從零“生成”圖像。它從地球上多個射電望遠鏡收集極其稀疏和帶有噪聲的干涉數據(類似拼圖的碎片)。他們的挑戰是如何從這些不完整的碎片中“拼湊”出一張完整的、最可信的圖像。為此,他們開發了複雜的成像算法,如 CHIRPeht-imaging。這些算法的核心是正則化最大似然法 (Regularized Maximum Likelihood)。 這裡的“正則項 (Regularizer)”與“物理懲罰項”在思想上是相通的,它們都是為了給解(圖像)增加先驗知識(Prior),避免過擬合和產生不自然的圖像。例如,正則項會懲罰那些圖像過於粗糙、不平滑或出現不該有的稀疏特徵的解。
  • 成果與問題:
    • 成果: 成功重建了人類歷史上第一張黑洞(M87*)及其後來的(Sgr A*)的陰影照片,驗證了廣義相對論在強引力場下的預言。
    • 問題/局限性:
      1. 這不是生成模型: 它嚴重依賴於真實的觀測數據,無法從一個隨機噪聲向量出發生成一張全新的、多樣的黑洞圖片。
      2. 物理約束是隱性的: 其正則項大多基於通用的圖像處理原則(如平滑性、稀疏性),而不是直接的、解析的物理公式。物理規律是通過海量的模擬圖像庫來間接驗證和校準的。

可參考論文:

4.2 物理模擬的代理模型/加速器 (Surrogate Models / Accelerators for Physics Simulation)#

Map2.png

這一方向的核心思想是:用深度網絡學習或近似傳統的廣義相對論光線追蹤(GRRT)或發射場模擬過程,將數值求解微分方程的昂貴開銷替換為一次前向推斷,從而實現對黑洞陰影及光子環結構的實時渲染與交互式探索。

  • 代表性論文:

  • 別人是怎麼做的:

    1. GPU/CPU 並行射線追蹤(RAPTOR):RAPTOR是一套支持任意度規、同時在 CPU 與 GPU 上並行運行的可微分光線追蹤+輻射傳輸代碼。它將求解測地線與輻射傳輸方程的過程高度並行化,使得在三維 GRMHD 模擬數據上生成時間演化圖像和光變曲線的速度提升 10x-100x。
    2. 基於 NeRF 的三維發射場重建:Levis et al. (BH‑NeRF) 將 NeRF 框架擴展到黑洞附近的發射場斷層成像:網絡以時空坐標為輸入,輸出體素密度與輻射強度,通過物理已知的開普勒軌道動力學建立不同時間點的對應。借助重力透鏡效應的幾何約束,BH‑NeRF 在稀疏多時刻觀測下恢復 3D 發射場,並用可微分體渲染模塊擬合 EHT 數據。
  • 成果與問題:

    • 成果:
      1. 實時/近實時渲染:RAPTOR 在常見 GPU 上每秒可追蹤上億條光線,BH‑NeRF 一次前向僅需幾十毫秒;
      2. 高保真度:解析軌道法在多種吸積模型下生成的影像,與全數值模擬結果峰值信噪比 (PSNR) 超過 35 dB;BH‑NeRF 在模擬數據上重建誤差 < 5%。
    • 問題/局限性:
      1. 領域差異導致的物理鴻溝:BH‑NeRF 屬於傳統計算機視覺範疇,處理的是日常物體(椅子、汽車、飛機等)上的簡單幾何與光學反射。而黑洞成像則涉及廣義相對論度規、強引力場中光線測地線、等離子體輻射與磁場極化等複雜物理過程,這兩者在本質和數學描述上相距甚遠。
      2. 對超大規模、多樣化訓練集的強依賴:BH‑NeRF 的泛化性能來自於數萬至數十萬張真實或合成的宏觀物體多視角圖像。要把同樣的方法遷移到黑洞領域,必須先生成一個同等規模的模擬庫——涵蓋不同質量、自旋、吸積盤模型、磁場配置等組合——其模擬計算量要比渲染常規 3D 模型高出數十至數百個數量級。
      3. 缺乏物理自洽性的根本瓶頸:即便耗費海量資源訓練出“黑洞版 BH‑NeRF”,它也只是學會了如何“在訓練樣本之間插值”以生成視覺上連貫的圖像。該過程完全基於數據統計,不受愛因斯坦場方程或電磁流體方程的約束。因此,它極可能在樣本間產生“看起來合理但物理上不存在”的偽像,無法保證重建結果在物理上是真實可靠的。

4.3 基於 GAN / Diffusion 的純圖像生成#

Map3.png

這個方向最“樸素”地將大規模 GRRT 模擬圖當作訓練數據,利用生成對抗網絡(GAN)或擴散模型(Diffusion Model)直接學習數據分布,快速產出新的黑洞模擬影像。

  • 代表性論文:
    • (2023)Generating Images of the M87* Black Hole Using GANs.
    • (2025)BCDDM: Branch‑Corrected Denoising Diffusion Model for Black Hole Image Generation.
    • 別人是怎麼做的:
      1. 數據準備:先用 GRRT 或 GRMHD 模擬生成數萬至數十萬張不同參數(質量、自旋、吸積盤模型、觀測角度)下的黑洞圖像。
      2. GAN 方法:Mohan et al. 構建條件漸進式 GAN(CPGAN),Generator 輸入黑洞自旋與電子溫度參數及隨機噪聲,輸出 128×128 像素的模擬圖;Critic 用於真實 vs. 合成判別,並帶有輔助回歸分支預測自旋。(arxiv)
      3. Diffusion 方法:Liu et al. 提出 BCDDM,在標準去噪擴散流程中加入“分支修正”機制(Branch Correction)和加權混合損失,網絡既學習圖像分布,又顯式關聯 RIAF 物理參數,實現更高精度的參數驅動生成。(arxiv)
    • 成果與問題:
      • 成果:
        1. 速度與多樣性:兩種方法都能在毫秒至秒級內生成大量黑洞模擬圖,支持連續自旋、溫度等參數變化;
        2. 增強下游任務:GAN 生成圖像用於訓練參數回歸網絡,自旋預測 R2R^2 明顯提升;Diffusion 方法在參數回歸任務中,也展現了與真實模擬數據相當的性能。
      • 問題/局限性:
        1. 物理一致性不足:生成模型僅基於統計學習,無法嚴格滿足愛因斯坦場方程或磁流體方程;
        2. 數據集偏倚:依賴於原始模擬數據的完備性和質量,少數極端參數組合(如高自旋 + 異常吸積盤)不足時輸出容易失真;
        3. 黑箱難解釋:網絡內部參數與物理現象映射不透明,難以保證生成過程中未引入非物理偽像。

4.4 基於深度生成先驗的圖像重建(Deep Generative Image Priors)#

Map4.png

這一方向雖仍屬於“圖像重建與參數估計”範疇,但其核心創新在於用可學習的深度生成模型來構建先驗(Prior),替代傳統的手工正則化項,從而靈活控制重建偏差並量化不確定性。

  • 代表性論文:
  • 論文簡介: Feng 等人提出了一種基於**分數網絡(score-based models)**的貝葉斯成像框架:用深度生成模型學習複雜圖像分布後,當作“數據驅動先驗”嵌入到重建過程中。用戶可選用“弱先驗”(僅約束自然圖像統計)或“強先驗”(引入黑洞結構假設),並通過後驗採樣/優化評估重建的不確定性。 (arXiv)
  • 別人是怎麼做的:
    1. 構建先驗:先用大規模自然圖像或模擬黑洞圖訓練一個分數網絡,學會估計任意圖像在“自然”或“物理結構”分布下的梯度方向;
    2. 貝葉斯推斷:將 EHT 干涉數據似然與上述深度先驗結合,採用 MCMC 或變分推斷,從後驗分布中採樣或優化生成最優圖像;
    3. 多先驗對比:在同一觀測數據上分別使用不同強度的先驗,分析重建結構(如環形 ellipticity、亮度不對稱)與先驗強弱的敏感性。 (arXiv)
  • 成果與問題:
    • 成果:
      1. 在不使用傳統正則項的情況下,僅通過優化 zz 來擬合EHT數據,他們重建出了與 EHT 官方結果一致的、清晰的非對稱環狀結構。
      2. 更重要的是,通過調整對 χ2\chi^2 的擬合程度,他們生成了一系列形態更多樣的黑洞圖像,展示了數據背後可能存在的其他結構,有力地探索了解空間。
    • 問題/局限性:
      1. 先驗知識與物理無關: 這是它最根本的局限性。StyleGAN 的先驗知識來自於“人臉”,它懂得什麼是平滑的皮膚、清晰的輪廓,但它完全不懂廣義相對論。它能生成環狀結構,不是因為它懂物理,而是因為 EHT 的數據“強迫”它必須生成一個環才能讓 χ² 最小。
      2. 物理遵從性依然無法保證: 如果觀測數據存在噪聲或者在某些方面約束不強,這個“人臉先驗”可能會引導模型生成一些具有“非物理”特徵的、但又能擬合數據的圖像。例如,它可能會生成一個帶有兩個對稱亮斑的環,僅僅因為這種結構在它學過的“自然圖像”中很常見(比如像眼睛),而這在物理上(對於 M87*)是不太可能的,它依舊需借助高保真模擬數據進行校準。
      3. 結果依賴於“巧合”: 這種方法的成功,部分依賴於一個“巧合”:黑洞圖像的環狀結構在某種程度上足夠“簡單”,以至於一個通用的自然圖像先驗就能大致捕捉到。如果需要重建的物理現象結構更複雜、更“非自然”,這種方法的效果就可能會打折扣。
      4. 先驗訓練成本大:分數網絡需在海量模擬或自然圖像集上預訓練,且網絡容量和採樣成本高;
WARNING

Feng, B. T., Bouman, K. L., & Freeman, W. T. (2024). “Event‑horizon‑scale Imaging of M87* under Different Assumptions via Deep Generative Image Priors.”的論文不屬於前面定義的“基於GAN/Diffusion的純圖像生成”範疇。將它和另外兩篇論文直接並列融合,可能會引起概念上的混淆。

核心區別點:正向建模 vs. 逆向問題

對比維度純圖像生成 (Pure Generation)
(Mohan & Liu et al.)
深度生成先驗重建 (Deep Prior Reconstruction)
(Ikkatai et al.)
核心目標正向建模 (Forward Modeling)
學習物理規律的映射 `p(圖像
物理參數)`,從給定的物理參數和噪聲生成全新的、符合該參數的圖像。
AI模型角色待訓練的生成器 (Generator to be Trained)
GAN或Diffusion模型的權重被從頭訓練,目的是學習和復現整個模擬數據集的分布。
固定的圖像先驗 (Fixed Image Prior)
使用一個預訓練好且權重被凍結的強大生成模型(如StyleGAN)。它本身不被訓練。
訓練/優化對象模型權重 θ\theta
通過訓練更新網絡的權重,使其具備生成能力。
潛在空間向量 zz
在重建時,通過疊代優化找到一個最佳的噪聲向量z,使得G(z)生成的圖像最符合觀測數據。
輸入數據訓練時:大量模擬圖像及其對應的物理參數。
生成時:指定的物理參數 + 一個隨機噪聲z
重建時真實的、稀疏的天文觀測數據(如EHT的可見度數據)+ 一個隨機初始化的z
應用場景快速生成海量模擬數據,用於理論研究、數據增強或訓練下游任務(如參數回歸)。從真實的科學數據中還原圖像,並探索在數據約束下所有可能的圖象形態(解空間)。

五、我們的物理懲罰項設計#

5.1 物理懲罰項的核心思想#

我們的核心思想是:將明確的、多層次的物理定律作為可微分的懲罰項,直接注入到深度生成模型(如DPS)的優化過程中,從而將一個統計性的、物理上“無知”的圖像先驗,改造為一個嚴格遵守物理法則、能夠進行高保真科學建模的“物理專家

我們不滿足於生成“看起來像”的圖像,我們的目標是生成在幾何、動態和光學特性上都與廣義相對論預測相符的、物理上“正確”的圖像。

5.2 我們設計物理懲罰項的思路#

5.2.1 設計原則#

我們的設計思路是一個自下而上、層層遞進的演化過程:

  1. 識別問題: 我們首先分析了當前最前沿的方法(如 Ikkatai 等人的深度生成先驗)的根本局限性:先驗與物理無關、物理遵從性無保證、結果依賴偶然性、以及推理效率低下等。
  2. 確立原則: 基於這些問題,我們確立了設計原則:我們的懲罰項必須是物理上正確、計算上高效、並且能直接針對性解決上述局限性的。我們果斷地不考慮像總變分(TV)這類純圖像處理層面的正則項,因為它缺乏特定的物理指向性,甚至可能損害(模糊)關鍵物理特徵。
  3. 分層構建: 我們沒有將所有物理約束雜亂地堆砌在一起,而是構建了一個**“分層式的物理懲罰項組合”**。這個組合從最基礎的物理有效性,到宏觀的幾何結構,再到精細的物理特徵,逐級增強約束。這種結構化的設計使得整個框架邏輯清晰、穩定且易於調試。
WARNING

總變分正則化 (Total Variation, TV)

LTV=mean(hx)+mean(wx)\mathcal{L}_{TV} = \text{mean}(|\nabla_h x|) + \text{mean}(|\nabla_w x|)
  • TV是抑制圖像噪聲、鼓勵平滑度的經典工具。
  • 它解決了什麼問題? 它解決了生成模型可能產生高頻噪聲、棋盤格偽影等不自然紋理的問題。
  • 它能達到什麼效果(以及需要注意的權衡)?
    • 提升視覺質量: 生成的圖像會更平滑、更“像”一張經過良好處理的天文照片,視覺上更令人愉悅。
    • ⚠️ 重要警示與權衡: 對於黑洞成像,TV是一把雙刃劍,必須謹慎使用。黑洞最有趣、信息量最大的物理特徵——例如光子環——在理論上是無限尖銳的。過度使用TV正則化會模糊掉這些尖銳的、高頻的物理細節,從而破壞我們想要測量的物理信息。因此,TV損失的權重 λ_TV 需要設置得非常小,僅僅用於抑制明顯的噪點,而非強制全局平滑。

5.3 我們設計的物理懲罰項相對於別人的研究改進了什麼#

相對於當前領域內的主要研究方向,我們的設計實現了以下關鍵改進:

  • 相較於EHT的RML方法: RML依賴於通用的正則項(如平滑性),這些是“普適”的約束。我們的懲罰項則是**“領域專屬”的物理定律**,它不僅告訴模型圖像不應該有噪聲,更明確地告訴模型“陰影應該是 D 形的”、“吸積盤亮度是不對稱的”,提供了信息量更豐富的先驗。
  • 相較於Ikkatai等人的深度生成先驗方法: 這是我們最核心的改進。
    • 變“無知”為“有知”: 他們依賴一個昂貴且物理上無知的通用先驗(黑洞圖片);我們通過廉價的計算,為模型直接注入了物理智慧
    • 變“被動符合”為“主動遵守”: 他們依賴觀測數據“強迫”模型生成正確形態;我們的懲罰項讓模型主動地、內生地朝著物理正確的方向優化,即使在數據約束不足的區域也能保證物理遵從性。
    • 變“偶然成功”為“必然正確”: 他們的成功部分依賴於M87*結構簡單的“巧合”;我們的方案因為基於普適的物理定律,所以對不同物理場景更具魯棒性和泛化能力

5.4. 我們具體設計的物理懲罰項是什麼#

5.4.1 第一層:基礎物理有效性約束 (Level 1: Fundamental Physical Validity)#

此層為所有約束的基石,確保圖像符合最基本的物理定義。

  • 物理懲罰項非負性約束 (Non-negativity Constraint)

    • 物理/數學公式
    Lnon-neg=mean(ReLU(x)2)\mathcal{L}_{\text{non-neg}} = \text{mean}(\text{ReLU}(-x)^2)
    • 物理意義:圖像的亮度或物理學中的輻射通量 (Flux) 不可能是負值。一個像素點只能發出能量或不發出能量,但不能發出“負能量”。
    • 如何幫助圖像符合物理規律:此約束能防止模型在優化過程中利用負像素值“作弊”以滿足其他損失項,確保了生成圖像在能量上的基本物理真實性。

5.4.2 第二層:宏觀幾何與結構約束 (Level 2: Macroscopic Geometry & Structure)#

此層負責構建黑洞圖像的“骨架”,確保其整體形態、位置和範圍正確無誤。

  • 物理懲罰項 1: 緊湊支援約束 (Compact Support Constraint)

    • 物理/數學公式: Lsupport=mean((x(1M))2)\mathcal{L}_{\text{support}} = \text{mean}((x \cdot (1-M))^2) 其中 MM 是一個中心為 1、邊緣為 0 的掩碼。
    • 物理意義:來自黑洞事件視界附近的光學信號,其來源應該是空間上局域的、集中的。我們不期望在遠離中心的無窮遠處觀測到來自黑洞本身的信號。
    • 如何幫助圖像符合物理規律:強迫模型將所有信號集中在圖像中心區域,避免生成在物理上不合理的、彌散的偽影,有效淨化圖像背景。
  • 物理懲罰項 2:中心位置懲罰項 (Centricity Penalty)

    • 物理/數學公式Lcenter=Centroid(xM)Center(Image)2\mathcal{L}_{\text{center}} = ||\text{Centroid}(x \cdot M) - \text{Center(Image)}||^2
    • 物理意義:基於黑洞是引力中心場的本質,其在圖像中的能量物質心力應該精確地位於圖像中心。
    • 如何幫助圖像符合物理規律:在「緊湊支援」確保信號範圍的基礎上,此項進一步保証了信號分佈核心與幾何中心對齊,完美體現了中心引力源的特性。
  • 物理懲罰項 3:陰影形狀懲罰項 (Shadow Geometry Penalty)

    • 物理/數學公式: 對於非旋轉黑洞 Lshape=Circularity(Shadow)1\mathcal{L}_{\text{shape}} = |\text{Circularity(Shadow)} - 1|
    • 物理意義:根據廣義相對論的精確預測,一個不旋轉的黑洞陰影在幾何上應為一個完美的圓形。
    • 如何幫助圖像符合物理規律:直接將廣義相對論的幾何預測編碼為約束,確保了黑洞最核心的視覺特徵——「事件視界陰影」的形態是物理正確的,而非生成模型隨意「幻想」出的形狀。

5.2.3 第三層:精細物理特徵約束 (Level 3: Fine-Grained Physical Features)#

此層負責為圖像增添“血肉”,注入由相對論效應引起的光學和動態細節。

  • 物理懲罰項 1: 多普勒不對稱性懲罰項 (Doppler Asymmetry Penalty)

    • 物理/數學公式:
    Ldoppler=IapproachingIrecedingRtheory2\mathcal{L}_{\text{doppler}} = \left| \frac{\sum I_{\text{approaching}}}{\sum I_{\text{receding}}} - R_{\text{theory}} \right|^2
    • 物理意義: 對於旋轉的黑洞,其吸積盤朝向觀測者運動的一側會因相對論性多普勒效應而顯著增亮,而遠離的一側則會變暗
    • 如何幫助圖像符合物理規律: 此項是確保物理真實性的“點睛之筆”。它強迫模型生成具有正確亮度不對稱性的吸積盤,直接杜絕了生成對稱“雙眼”等非物理圖像的可能性,使圖像真正反映出黑洞的動態特性。

5.2.4 我們的物理懲罰項PA懲罰項如何完美融入此框架?#

惩罚项视角

這是一個至關重要的實踐問題。我認為應該從權重、優先級與 DPS 過程分析,因為我覺得引入這麼多層物理公式,肯定是有最重要的物理公式做優先級的強約束,其它物理公式做弱約束。

這是一個至關重要的實踐問題。

  • 融合方式: 所有這些懲罰項會以加權的形式,統一添加到總的損失函數中:

    Ltotal=Ldata+λnegLnon-neg+λsupLsupport+λcenLcenter+λshpLshape+λdopLdoppler\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{data}} + \lambda_{\text{neg}}\mathcal{L}_{\text{non-neg}} + \lambda_{\text{sup}}\mathcal{L}_{\text{support}} + \lambda_{\text{cen}}\mathcal{L}_{\text{center}} + \lambda_{\text{shp}}\mathcal{L}_{\text{shape}} + \lambda_{\text{dop}}\mathcal{L}_{\text{doppler}}

    其中 Ldata\mathcal{L}_{\text{data}} 是衡量生成圖像與觀測數據吻合度的項 (如 χ2\chi^2)。

  • 權重 (λ\lambda) 與優先級: 這些權重是需要調節的超參數,但其設定具有清晰的物理邏輯和優先級:

    • 最高優先級 (Level 1)λneg\lambda_{\text{neg}} 應該非常大或作為硬性約束,因為非負性是物理上不容違背的。

    • 次高優先級 (Level 2)λsup\lambda_{\text{sup}}λcen\lambda_{\text{cen}}λshp\lambda_{\text{shp}} 應該有較高的權重。因為一個圖像如果幾何結構都不對(不在中間、範圍不對、形狀不對),那麼討論其細節是沒有意義的。通常可以先用較高的權重訓練這一層,待結構穩定後再進行微調。

    • 高優先級 (Level 3)λdop\lambda_{\text{dop}} 等權重負責精細調節,可以在模型已經能生成「骨架」後,再逐漸增大其影響,以雕琢出最終的物理細節。

  • DPS 過程如何「知道」我們的約束

    這個問題的答案是肯定的,並且這是整個設計的關鍵所在。我們的約束並非一個簡單的「後處理」步驟。在 DPS (或任何引導擴散模型) 的框架中,引導發生在每一個逆向去噪的步驟裡

    具體來說,在每一步 tt,模型會根據當前的噪聲圖像 xtx_t 計算總損失函數 Ltotal\mathcal{L}_{\text{total}} 的梯度 xtLtotal\nabla_{x_t} \mathcal{L}_{\text{total}}。這個梯度包含了我們所有物理懲罰項的「意見」,它會直接被用來修正模型對噪聲的預測,從而引導整個生成軌跡。

    所以,我們的物理懲罰項就像一個**「物理引力場」**,在從純噪聲到最終圖像的每一步演化中,都持續地將生成路徑「拉」向一個同時滿足觀測數據和我們物理定律的、最正確的方向。

DPS算法视角

  1. 增強引導損失:我們的物理懲罰項,其作用是增強和修正原有的引導梯度。原有的引導只考慮了「數據保真度」(像不像觀測數據 yy),而我們要加入「物理保真度」。

  2. 新的總引導損失:我們將原有的數據損失項記為 Ldata=yA(x^0)22\mathcal{L}_{\text{data}} = ||y - \mathcal{A}(\hat{x}_0)||^2_2。我們的物理懲罰項應作用在物理意義最明確的乾淨圖像估計 x^0\hat{x}_0 上。因此,我們定義總的引導損失為:

    Lguidance(x^0)=Ldata(x^0)+kλkLphys,k(x^0)\mathcal{L}_{\text{guidance}}(\hat{x}_0) = \mathcal{L}_{\text{data}}(\hat{x}_0) + \sum_k \lambda_k \mathcal{L}_{\text{phys},k}(\hat{x}_0)

    其中 Lphys,k\mathcal{L}_{\text{phys},k} 是我們設計的第 kk 個物理懲罰項(如中心位置、陰影形狀等),λk\lambda_k 是其對應的權重。

  3. 具體的算法步驟修改:我們直接修改 DPS 論文中 Algorithm 1 的第 7 步。

    • 原始步驟

      Line 7: xi1xi1primeζixi1primeyA(x^0)22x_{i-1} \leftarrow x_{i-1}^{prime} - \zeta_i \nabla_{x_{i-1}^{prime}} ||y-\mathcal{A}(\hat{x}_0)||_2^2

    • 融合我們懲罰項後的新步驟

      Line 7: xi1xi1primeζixi1prime(yA(x^0)22+kλkLphys,k(x^0))x_{i-1} \leftarrow x_{i-1}^{prime} - \zeta_i \nabla_{x_{i-1}^{prime}} \left( ||y-\mathcal{A}(\hat{x}_0)||_2^2 + \sum_k \lambda_k \mathcal{L}_{\text{phys},k}(\hat{x}_0) \right)

    在每個去噪步驟 ii,算法都將會計算這個包含我們所有物理約束的總引導損失的梯度,並用它來修正生成的方向。

5.2.5 超參數(Hyperparameters)梳理#

TIP

這裡需要注意我們訓練過程的圖片大小是 64x64。

我們設計的物理懲罰項中的超參數

我們逐一審視最終方案中的每一個懲罰項:

物理懲罰項 (Physics Penalty Term)核心超參數 (Core Hyperparameter)物理/幾何意義針對 64x64 圖像的設定建議損失權重 (Loss Weight)
(L1) 非負性約束(無)物理上,輻射通量/亮度不能為負。無需設定,公式本身是固定的。λnon-neg\lambda_{\text{non-neg}}
(L2) 緊湊支撐約束σ\sigma (高斯掩碼的標準差)我們期望黑洞信號集中的區域的有效半徑。這是一個關鍵超參數。對於一張64x64的圖像,黑洞的核心視覺特徵(陰影+亮環)通常會占據中心一部分。一個合理的初始值可以設定為 σ=12\sigma = 1216 像素。這相當於將信號約束在中心半徑約為12-16像素的區域內,之外的區域會受到越來越強的懲罰。λsupport\lambda_{\text{support}}
(L2) 中心位置懲罰項(無)圖像的幾何中心點。對於64x64圖像,中心點是固定的(31.5, 31.5),因此該公式沒有需要調節的內部超參數。λcenter\lambda_{\text{center}}
(L2) 陰影形狀懲罰項T_shadow (用於分割陰影的亮度閾值)區分黑洞陰影(低亮度)與周圍亮環(高亮度)的臨界值。這個值高度依賴於生成圖像的整體亮度範圍。假設您的圖像亮度被歸一化到 [0, 1] 區間,可以從 T_shadow = 0.10.15 開始嘗試。即,所有亮度低於0.1的像素被認為是“陰影”部分。您需要通過觀察幾張典型的生成圖像來微調此值。λshape\lambda_{\text{shape}}
(L3) 多普勒不對稱性懲罰項R_theory (理論亮度比)由黑洞自旋 a 和觀測傾角 i 決定的、吸積盤靠近側與遠離側的理論亮度比值。這不是一個可調的超參數,而是一個物理輸入參數。模型必須先確定要生成哪種自旋的黑洞。如果模型是無條件的,必須為其選擇一個固定的、有代表性的值,例如 a=0.9,然後計算出對應的 R_theory(可能在2.04.0之間)。如果模型是條件性的ai 會作為輸入,R_theory 將根據這些輸入動態計算得出。λdoppler\lambda_{\text{doppler}}

關於損失權重 (λ\lambda) 的設定策略與思考

如何平衡這些懲罰項,決定了模型學習的優先級和最終效果。

核心原則:平衡梯度貢獻,體現物理優先級

我們的目標不是讓每個 loss 的數值相等,而是讓它們對最終優化方向的**貢獻(即梯度幅度)**處於一個相對平衡且符合我們預期的狀態。

具體設定策略:

  1. 建立基準: 通常,我們將衡量與觀測數據吻合度的 Ldata\mathcal{L}_{\text{data}} 的權重設為1.0,作為所有其他權重的參考基準。

  2. 分層設定優先級: 我們的分層設計天然地提供了一個設定優先級的思路。

    • 最高優先級 (Level 1): 非負性是物理鐵律,不容違背。因此 λ_non-neg 應該設置得非常大(如 100.01000.0),確保任何負值都會導致巨大的懲罰。
    • 次高優先級 (Level 2): 幾何結構是圖像的骨架,必須首先正確。λ_support, λ_center, λ_shape 的權重應該較高,以確保模型先學會生成一個位置、範圍和形狀都基本正確的圖像。
    • 高優先級 (Level 3): 精細特徵是在骨架正確的基礎上進行雕琢。λ_doppler 的權重可以在模型已經能穩定生成正確幾何結構後,再進行微調或增加。
  3. 梯度幅度分析法(科學方法): 最嚴謹的方法是:在訓練初期,將所有λ設為 1,然後計算並打印出每個損失項梯度的平均範數(magnitude)。你會發現它們的數量級可能天差地別。然後,通過調整λ來讓加權後的梯度範數λ * ||∇L||)達到想要的比例(例如,讓Level 1的梯度貢獻是Level 2的5倍)。

  4. 啟發式設定法(快速入門): 如果想快速開始,可以基於物理優先級進行啟發式設定。考慮到 DPS 的 guidance_scale 較小(0.003),意味著總的引導信號被縮放得很小,因此內部的λ權重可能需要設置得比較大才能起作用。一個可以嘗試的初始值集合

    • λ_non-neg = 1000.0 (確保其有效)
    • λ_support = 10.0
    • λ_center = 10.0
    • λ_shape = 5.0
    • λ_doppler = 1.0

    從這個初始集合開始,觀察生成結果:

    • 如果圖像總是偏離中心,就增大 λ_center
    • 如果圖像邊緣總有噪點,就增大 λ_support
    • 如果陰影形狀很奇怪,就增大 λ_shape
    • 如果吸積盤總是對稱的,就增大 λ_doppler

六、物理懲罰項答疑#

6.1 緊湊支撐約束的Mask如何決定?#

在看到此約束的時候,肯定會疑惑:“集中”到什麼程度?Mask 有多寬?然而,這應由物理知識指導設定。Mask 的尺寸應與黑洞陰影的理論物理尺寸 rshr_{sh} 相關。推薦使用一個中心區域為 1,向外平滑衰減到 0 的高斯軟掩碼 M(r)=exp(r2/(2σ2))M(r) = \exp(-r^2 / (2\sigma^2))。其中 σ\sigma 可設為理論陰影半徑的 2~3 倍,這是一個可調節的、有物理意義的超參數。

6.2 Loss 只是個數值,如何指導圖像?#

TIP

在DPS這類算法的推理(inference/sampling)過程中,並不存在我們通常在**訓練(training)**神經網絡時所說的那種、旨在更新網絡權重的backward()過程。 score network sθs_\theta 的權重是預訓練好並被凍結的。

通過梯度。在 DPS 算法中每個去噪步驟中,對於高斯噪聲,這個似然梯度項被近似為 12σ2xtyA(x^0(xt))22-\frac{1}{2\sigma^2}\nabla_{x_t}||y - \mathcal{A}(\hat{x}_0(x_t))||_2^2,這裡的 xt\nabla_{x_t} 就是關鍵:它代表的是損失函數 yA(x^0(xt))22||y - \mathcal{A}(\hat{x}_0(x_t))||_2^2 相對於當前噪聲圖像 xtx_t 的梯度。自動微分會計算出總引導損失相對於當前圖像每個像素的梯度。這個梯度向量(一個與圖像同尺寸的“地圖”)精確地指明了每個像素需要調整的方向和強度,從而實現空間上的精確引導。

6.3 我們是否需要另外設計梯度?#

不需要。我們只需用PyTorch/TensorFlow等框架提供的函數來定義計算懲罰項數值(前向傳播)的公式。框架的自動微分功能會在每個步驟中為我們自動且精確地計算出所需的梯度(反向傳播)。

6.4 權重數值初始值應該是多少?#

這是一個關鍵的超參數調節問題,核心原則是平衡不同梯度項的貢獻幅度

  • 策略: 在訓練開始階段,先將所有權重 λ\lambda 設為1,運行幾個步驟,觀察並計算每個損失項(數據項、物理項1、物理項2…)產生的梯度範數(即梯度向量的平均大小)。

  • 歸一化: 您會發現它們的數量級可能差異很大。假設 L_dataL\_data 的梯度範數是 10210^{-2},而 L_shapeL\_shape 的梯度範數是 10510^{-5}。為了讓它們初始「話語權」相當,可以將 λ_shape\lambda\_shape 的初始值設為 1000 左右。

  • 與 guidance_scale 的關係: guidance_scale(在DPS論文中是步長 ζt\zeta_t)是對總引導梯度的全局縮放。而 λ\lambda 是在內部平衡各個分量的比例。通常,我們先用 λ\lambda 把內部比例調好,再用 guidance_scale 控制整體引導強度。DPS論文中提到,步長 ζt\zeta_t 設為 常數 / yA(x0)\text{常數} \ /\ ||y - A(x_0)|| 效果穩定,可以借鑒此思想,將物理項的權重也進行類似的動態調整,或者先用歸一化後的固定值開始實驗。

七、總結#

我們設計的這套**“分層式的物理懲罰項組合”**,是對當前深度生成模型在科學應用中核心局限性的一個全面、系統且戰略性的回應。它通過將明確、可計算的物理定律直接注入模型優化的心臟,成功地將一個通用的圖像生成器,轉化為一個高效、可靠且物理上高度可信的科學建模工具。這不僅能生成前所未有地逼真的黑洞圖像,更重要的是,它為利用 AI 進行嚴肅、可驗證的物理學研究開闢了一條全新的道路。

物理懲罰項改進與重新梳理
https://huangno1.github.io/posts/reform_dps_add_calculate_physics_penalty/
Author
HuangNO1
Published at
2025-07-21
License
CC BY-NC-SA 4.0