Tmux 快速使用
使用 tmux 是一個比 nohup 更好的選擇,因為它不僅能讓你的程序在後台持續運行,還能讓你隨時方便地重新連接回去,查看實時的輸出、滾動日誌,就像你從未離開過一樣。
883 words
|
4 minutes
Cover Image of the Post
MoE PnP架構設計
因為我目前的黑洞逆問題科研工作,主要的思想是想要將很多個Prior先驗(模型),目前我為了怎麼將 MoE 去整合先驗模型進行思考設計,但是也不確定是不是具體我們想要的結果,關於 V3 的設計是針對 MoE 的 Router 層進行微調訓練,需要很多個先驗模型才能知道效果。
6609 words
|
33 minutes
Cover Image of the Post
ViTPose++: Vision Transformer for Generic Body Pose Estimation
論文中文--ViTPose++:用於通用人體姿態估計的視覺 Transformer
2611 words
|
13 minutes
Cover Image of the Post
MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers
論文中文-百萬字節:基於多尺度 Transformer 的百萬字節序列建模方法
2575 words
|
13 minutes
Cover Image of the Post
Sparse Upcycling Training Mixture-of-Experts from Dense Checkpoints
論文中文-從密集檢查點中稀疏再利用訓練混合專家模型
2791 words
|
14 minutes
Cover Image of the Post
Mixtral 8x7B: A High Quality Sparse Mixture of Experts
論文中文-Mixtral 8x7B:高質量的稀疏專家混合模型
2884 words
|
14 minutes
Cover Image of the Post
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts
論文中文-GLaM:利用混合專家架構實現語言模型的高效擴展
2227 words
|
11 minutes
Cover Image of the Post
遊戲心得:What Remains of Edith Finch
2025-07-06
因為前段時間 Steam 夏季促銷,正好 Telegram 的 Arch 群友 @RichardLuo 給我推薦了這款遊戲:What Remains of Edith Finch,遊戲中文名:《艾迪芬奇的記憶》、《伊迪·芬奇的回憶豪宅》。
1348 words
|
7 minutes
Cover Image of the Post