Da Nang(越南峴港)/ HuangNO1
交叉注意力概述&科研工作推進
2025-07-15
因為將 MoE(Mixture-of-Experts)不符合我們的論文想法,MoE最大的特點是 Top-K 的設計產生的稀疏計算,但是我們認為所有的專家都是有用的,即使是讓 Top-K失效,使用 softmax的做法,也已經讓整個架構混亂,所以我想到了使用交叉注意力(Cross-Attention),作為我們新的方向。
5488 words
|
27 minutes

原 DPS 算法加入物理懲罰項具體實現
2025-07-11
我們當前的算法偽代碼公式是不夠好的,沒有加上MoE的模塊設計,也沒有具體實現 \mathcal{L}_{\text{stab}} 物理公式的懲罰性項來穩定矯正逆向採樣過程:
4749 words
|
24 minutes

2025.07 集成學習(Ensemble Learning)論文整理
2025-07-10
儘管 MoE 在當前場景更具優勢,但理解集成學習的原理仍然非常重要,因為 MoE 某種程度上可以看作是集成學習的一種更動態、更智能且對計算資源更友好的變體。以下是一些集成學習領域的經典論文,涵蓋了主要的方法論:
3681 words
|
18 minutes

Tmux 快速使用
2025-07-10
使用 tmux 是一個比 nohup 更好的選擇,因為它不僅能讓你的程序在後台持續運行,還能讓你隨時方便地重新連接回去,查看實時的輸出、滾動日誌,就像你從未離開過一樣。
883 words
|
4 minutes

MoE PnP架構設計
2025-07-08
因為我目前的黑洞逆問題科研工作,主要的思想是想要將很多個Prior先驗(模型),目前我為了怎麼將 MoE 去整合先驗模型進行思考設計,但是也不確定是不是具體我們想要的結果,關於 V3 的設計是針對 MoE 的 Router 層進行微調訓練,需要很多個先驗模型才能知道效果。
6609 words
|
33 minutes

ViTPose++: Vision Transformer for Generic Body Pose Estimation
2025-07-07
論文中文--ViTPose++:用於通用人體姿態估計的視覺 Transformer
2611 words
|
13 minutes

MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers
2025-07-07
論文中文-百萬字節:基於多尺度 Transformer 的百萬字節序列建模方法
2575 words
|
13 minutes

Sparse Upcycling Training Mixture-of-Experts from Dense Checkpoints
2025-07-06
論文中文-從密集檢查點中稀疏再利用訓練混合專家模型
2791 words
|
14 minutes
