Da Nang(越南峴港)/ HuangNO1
Mixtral 8x7B: A High Quality Sparse Mixture of Experts
2025-07-06
論文中文-Mixtral 8x7B:高質量的稀疏專家混合模型
2884 words
|
14 minutes

GLaM: Efficient Scaling of Language Models with Mixture-of-Experts
2025-07-06
論文中文-GLaM:利用混合專家架構實現語言模型的高效擴展
2227 words
|
11 minutes

遊戲心得:What Remains of Edith Finch
2025-07-06
因為前段時間 Steam 夏季促銷,正好 Telegram 的 Arch 群友 @RichardLuo 給我推薦了這款遊戲:What Remains of Edith Finch,遊戲中文名:《艾迪芬奇的記憶》、《伊迪·芬奇的回憶豪宅》。
1348 words
|
7 minutes

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
2025-07-05
論文中文-《切換變換器:通過簡單高效的稀疏性機制擴展至萬億參數模型》
3392 words
|
17 minutes

Event-horizon-scale Imaging of M87* under Different Assumptions via Deep Generative Image Priors
2025-07-04
中文標題-M87*黑洞成像的“先驗”之謎:利用深度生成模型探索不同假設
8633 words
|
43 minutes

MoE (Mixture-of-Experts) 在黑洞逆問題上的應用
2025-07-02
在此篇文章我想要粗略思考,如果我們使用 Mixture-of-Experts (MoE) 去結合 cifar-10 和 TCIR 數據集,該做哪些前置分析,因爲目前還只是想法階段,沒有真實的代碼,最後使用 Gemini 幫我生成了代碼。
5108 words
|
26 minutes

MoE (Mixture-of-Experts) 簡述
2025-07-02
想像一下,有一個非常複雜的問題需要解決,比如要識別圖像中的各種物體、翻譯不同語言的文本、或是回答各種領域的問題。如果只有一個「專家」來處理所有這些問題,它可能需要學習非常多的知識,這會讓它變得非常龐大和低效,而且它可能無法在所有領域都表現出色。
1964 words
|
10 minutes
