Torch

名稱
Email
主題
回覆
檔案
嵌入
Options	Spoiler 圖片
密碼	（用來刪除檔案。）
Allowed file types:jpg, jpeg, png, gif, mp4, webm Max filesize is 10 MB. Max image dimensions are 10000 x 10000. You may upload 1 per post.

File: 1740971427865.gif (1.88 MB, 450x306, 1740953555625.gif)

Torch 無ゴミ 25/03/03 (Mon) 03:10:28 bc30f9c1 No.2279

機器學習的基石是線性代數。因此該概念可以適應任何硬體。為什麼有些機器學習庫是完全依賴Nvidia特定的專有顯示卡所建構的？我覺得很不方便。機器學習庫聲稱存在選擇。在實際使用中，機器學習庫並沒有給使用者太多選擇。將配置更改為 CPU 只會產生錯誤訊息。如果沒有提供特定的硬件，程式將無法運行大多數功能。

無ゴミ 25/03/03 (Mon) 03:40:08 4e247886 No.2281

因為cuda真的很方便
你是大神的話也可以自己c++硬幹
現在也有不少人在協助讓amd的卡也支援ai運算

全憑印象回答，最好自己重頭查證一下無ゴミ 25/03/03 (Mon) 10:15:48 feb7be98 No.2282

>>2279
不材的我覺得你的問題，可細分為兩部分
一、為什麼是GPU？
因為GPU跟CPU設計概念落差大
兩者相比(注意是相比)
GPU擅長同時大量簡單運算
CPU擅長複雜運算
以機器學習的發展方向是需求靠近同時大量簡單運算的

二、為什麼是Nvidia
因為這段風潮起來前，顯卡廠商只有他們大量砸錢在這方面，
如果是其他間這樣一直大金額砸錢多年沒有相關的營收，早就被那些短視近利的股東幹死了。
沒有相關的營收那幾年形成了優勢。

剛打完去吃飯，走到樓梯就想修正自己的講法了無ゴミ 25/03/03 (Mon) 11:10:09 feb7be98 No.2285

>>2282
>多年沒有相關的營收
這句非常不精確
如果一年一年看或者說分階段看
當中有段時間是有相關營收但應該是偏低的

以下時間點我有看一下資料
CUDA首次發布2007年

指導教授傑佛瑞·辛頓(深度學習之父)、學生伊爾亞·蘇茲克維(OpenAI共同創辦人之一)、亞歷克斯·克里澤夫斯基(自開公司賣給google後離職)
在2012年用GPU去訓練出的AlexNet，在ImageNet的影像辨識的挑戰賽獲勝
(記得那簡單來說，是比拿圖像問AI模型這圖像最可能是哪種東西，猜對最多的模型獲勝的比賽)

可以看AlexNet的wiki
https://zh.wikipedia.org/zh-tw/AlexNet
還有寫在那之前哪些人拿GPU比贏比賽

最早的還早於CUDA，
只能說，其他間不認真投資，是要怪老愛出刀的Nvidia嗎？

無ゴミ 25/03/03 (Mon) 18:05:39 bc30f9c1 No.2287

File: 1741025139748.jpg (223 KB, 1408x768, burgers.jpg)

>>2281
Cuda 被引入避免複雜的編程(Direct3D, OpenGL)但它的功能在預期用途之外(ML)不產生錯誤? GPU被設計用於同時執行無數個著色器程式。它最終可以完成與機器學習（矩陣乘法）相同的任務?

>>2285

似乎史丹佛論文（2009）建議使用 GPU 進行深度學習。花了很多年才成為現實。強調並行處理的優勢。
https://robotics.stanford.edu/~ang/papers/icml09-LargeScaleUnsupervisedDeepLearningGPU.pdf

現在的問題是為什麼順序處理不能達到相同的結果（即使需要更長的時間）。去年我嘗試過網路輔導。網路教學說使用 CPU 也可以。它不但得不到結果，反而產生了錯誤。

有人建議我應該添加更多 RAM。說如果 RAM 不夠，即使是 nvidia GPU 也無法處理某些模型。那麼，GPU 也需要在 PC 的 RAM 上轉儲一些工作？

無ゴミ 25/03/03 (Mon) 18:15:41 bc30f9c1 No.2288

>>2287
(X)網路輔導
(O)按照網路說明操作

老話一句，最好自己重頭查證一下。別相信我講的胡言亂語。無ゴミ 25/03/04 (Tue) 04:58:50 22034c88 No.2290

>>2287
因為我也有幾年沒仔細碰訓練的部分……原本就不是很專業，
(之前有用自標記的資料去訓練過影像分割的模型，但沒有自己從頭建構過完整有用的模型架構)
我不確定我講的對不對，也沒碰過你的狀況，只能說說感想

你的問題在於用CPU訓練報錯的話，
先從報錯這件事情開始講，
很可能本身就有BUG就報錯了
原本越少人碰的做法，修正的順位及機率相對比較……所以甚至有人自己開分支去修BUG。
很可能安裝錯誤就報錯了
像是常見前置版本錯誤，不一定要最新的版本，而是要正確的版本，
又像CPU款式也很多，韌體版本也很多，CPU韌體甚至是CPU跟你所用的ML程式衝突或許也是有可能的。
CUDA 甚至可以說不是單純降低撰寫的入門難度和針對他們家顯卡GPU去優化加速，
而是他們花了時間跟金錢去減少安裝上的問題。

RAM的部分，概念上來說我覺得用到硬碟的虛擬記憶體也是理論上可行，
當然這做法會產生速度問題及程式是否支援。
重點在於對RAM來說，有使用跟釋放，
你在「釋放記憶體中已不需要的部分」的這個步驟沒處理好的話，給你拿硬碟做1T的RAM也是可能炸。
(有可能要用的繼續留在記憶體，要存的存到硬碟後，把存好的跟不要的清理掉，釋放出空間這樣的狀況)
細節會跟模型跟程式設定等等的有關係……我記得CUDA也有做記憶體管理的部分

……無論安裝到快崩潰了，又或是沒那麼多預算，
其實可以考慮colab或kaggle等jupyter平台(有免費的額度)
或是去用租伺服器安裝堆疊等等的方式去做雲端運算。(不用的時候記得關機減少花費，才不會變得比花顯卡的錢還貴)
這樣可以省去安裝時間的一部分，
我自己訓練模型的時候是用colab，好處是可以掛雲端硬碟上去，重複使用的資料可以放在雲端硬碟。
(因為這種平台大多會清空資料，每次都要重新上傳資料，安裝預設沒裝到的。但設定寫好的話就幾個鍵，讓他自己跑好，再繼續操作)

無ゴミ 25/03/09 (Sun) 07:05:26 14fa2ccf No.2312

以torch來說比較容易出錯的有:
Tensor device 對不上:
大部份Tensor-Tensor operation都要求在同一個device, 但建立Tensor時的預設device不太容易改變, 所以只要你打算用作者沒有在用的device都要整個code base重新看一次
Dtype不支援:
像float8那種不是常用的C float type, 最初只有cuda有在寫, cpu就要等廠support

無ゴミ 25/03/10 (Mon) 10:16:29 d75cd325 No.2317

>>2282
>因為這段風潮起來前，顯卡廠商只有他們大量砸錢在這方面，
完全錯誤
嚴格來講老黃這幾年能從賺到滿口袋變成賺到流湯是誤打誤撞(反正老黃的創業本來就是賽到不行的天選之人)
CUDA只是作為技術儲備一直投錢進去賭平行化運算在哪天爆紅讓NV可以用鼻子看IT廠

然後就被老黃賭到深度學習了甚至摩爾定律還沒進墳墓