>>2287因為我也有幾年沒仔細碰訓練的部分……原本就不是很專業,
(之前有用自標記的資料去訓練過影像分割的模型,但沒有自己從頭建構過完整有用的模型架構)
我不確定我講的對不對,也沒碰過你的狀況,只能說說感想
你的問題在於用CPU訓練報錯的話,
先從報錯這件事情開始講,
很可能本身就有BUG就報錯了
原本越少人碰的做法,修正的順位及機率相對比較……所以甚至有人自己開分支去修BUG。
很可能安裝錯誤就報錯了
像是常見前置版本錯誤,不一定要最新的版本,而是要正確的版本,
又像CPU款式也很多,韌體版本也很多,CPU韌體甚至是CPU跟你所用的ML程式衝突或許也是有可能的。
CUDA 甚至可以說不是單純降低撰寫的入門難度和針對他們家顯卡GPU去優化加速,
而是他們花了時間跟金錢去減少安裝上的問題。
RAM的部分,概念上來說我覺得用到硬碟的虛擬記憶體也是理論上可行,
當然這做法會產生速度問題及程式是否支援。
重點在於對RAM來說,有使用跟釋放,
你在「釋放記憶體中已不需要的部分」的這個步驟沒處理好的話,給你拿硬碟做1T的RAM也是可能炸。
(有可能 要用的繼續留在記憶體,要存的存到硬碟後,把存好的跟不要的清理掉,釋放出空間 這樣的狀況)
細節會跟模型跟程式設定等等的有關係……我記得CUDA也有做記憶體管理的部分
……無論安裝到快崩潰了,又或是沒那麼多預算,
其實可以考慮colab或kaggle等jupyter平台(有免費的額度)
或是去用租伺服器安裝堆疊等等的方式去做雲端運算。(不用的時候記得關機減少花費,才不會變得比花顯卡的錢還貴)
這樣可以省去安裝時間的一部分,
我自己訓練模型的時候是用colab,好處是可以掛雲端硬碟上去,重複使用的資料可以放在雲端硬碟。
(因為這種平台大多會清空資料,每次都要重新上傳資料,安裝預設沒裝到的。但設定寫好的話就幾個鍵,讓他自己跑好,再繼續操作)