Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
論文中文-《切換變換器:通過簡單高效的稀疏性機制擴展至萬億參數模型》
3392 words
|
17 minutes
Cover Image of the Post
Sparse MoE(稀疏混合專家模型)論文推薦
因為目前需要針對稀疏 MoE 進行研究,所以整理了這些論文。
3815 words
|
19 minutes
Cover Image of the Post
Event-horizon-scale Imaging of M87* under Different Assumptions via Deep Generative Image Priors
中文標題-M87*黑洞成像的“先驗”之謎:利用深度生成模型探索不同假設
8633 words
|
43 minutes
Cover Image of the Post
MoE (Mixture-of-Experts) 在黑洞逆問題上的應用
在此篇文章我想要粗略思考,如果我們使用 Mixture-of-Experts (MoE) 去結合 cifar-10 和 TCIR 數據集,該做哪些前置分析,因爲目前還只是想法階段,沒有真實的代碼,最後使用 Gemini 幫我生成了代碼。
5108 words
|
26 minutes
Cover Image of the Post
MoE (Mixture-of-Experts) 簡述
想像一下,有一個非常複雜的問題需要解決,比如要識別圖像中的各種物體、翻譯不同語言的文本、或是回答各種領域的問題。如果只有一個「專家」來處理所有這些問題,它可能需要學習非常多的知識,這會讓它變得非常龐大和低效,而且它可能無法在所有領域都表現出色。
1964 words
|
10 minutes
Cover Image of the Post
將 h5 格式的圖片 Dataset 解壓出圖片腳本
因爲之前在處理收集數據集的時候有碰到 .h5 格式的文件,一時不知道怎麽解壓出來,最後一開始自己寫的是錯誤的,導致圖片在訓練過程中有問題,後面改用 Gemini 生成的 PY 腳本就好了。特此記錄。
1230 words
|
6 minutes
Cover Image of the Post
對黑洞反問題提出基於 DPS 的 MP-DPS-SC 算法
因爲再上一篇文章我提出了關於黑洞反問題工作地拆分,然後基於 DPS 設計了一個 PnP 的算法,但是我的描述不是很清晰,我要在這篇文章中清晰闡述以下觀點:
3366 words
|
17 minutes
Cover Image of the Post
黑洞逆問題IDEA工作推進
此篇文章中,我要先再次確定現階段我們要做的工作推進方向,並在此方向上提出落地想法。所以我會先確定關於現有擴散模型在黑洞問題上的 Prior 模型工作,再來需要確定怎麼去落地屬於我們自己的似然算法。
9137 words
|
46 minutes
Cover Image of the Post