以GPU為中心的通信

逍遙設(shè)計自動化 · 發(fā)表于 2024-9-30 08:01:00

引言
高性能計算(HPC)和機(jī)器學(xué)習(xí)(ML)領(lǐng)域已經(jīng)因GPU的廣泛應(yīng)用而發(fā)生了變革。截至2024年6月，世界排名前10的超級計算機(jī)中有9個依賴GPU集群進(jìn)行加速。GPU在計算方面表現(xiàn)出色，但GPU之間的通信可能成為重大瓶頸，特別是當(dāng)每個節(jié)點和集群中的GPU數(shù)量增加時。

傳統(tǒng)上，多GPU通信由CPU管理。然而，近期以GPU為中心的通信進(jìn)展正在挑戰(zhàn)這一范式，減少CPU參與，賦予GPU更多通信任務(wù)自主權(quán)，并解決多GPU通信與計算之間的不匹配問題[1]。

圖1：展示了不同類型的節(jié)點內(nèi)通信方法的數(shù)據(jù)路徑和API調(diào)用。

理解GPU中心通信
GPU中心通信可以廣泛定義為減少CPU在多GPU執(zhí)行關(guān)鍵路徑中參與的機(jī)制。這包括供應(yīng)商層面的改進(jìn)（賦予GPU通信自主權(quán)）和利用這些改進(jìn)的用戶層面實現(xiàn)。

GPU中心通信主要分為兩類：

節(jié)點內(nèi)通信：在單個節(jié)點內(nèi)進(jìn)行通信，該節(jié)點包含多個連接到共享內(nèi)存主機(jī)的GPU卡。

節(jié)點間通信：跨多個節(jié)點進(jìn)行通信，每個GPU由不同的進(jìn)程控制，不同節(jié)點上的進(jìn)程之間不共享內(nèi)存。

支持GPU中心通信的關(guān)鍵技術(shù)
幾項技術(shù)為高效的GPU中心通信奠定了基礎(chǔ)：

1. 統(tǒng)一虛擬尋址(UVA)：在CUDA 4.0中引入，UVA允許節(jié)點內(nèi)的所有GPU和CPU共享同一統(tǒng)一虛擬地址空間，簡化了內(nèi)存管理。

2. GPUDirect：一系列優(yōu)化GPU與其他器件之間數(shù)據(jù)傳輸?shù)募夹g(shù)：

GPUDirect RDMA：支持NVIDIA GPU跨節(jié)點直接通信，無需CPU參與。

GPUDirect P2P：允許同一PCIe根復(fù)合體上的GPU之間直接內(nèi)存訪問。

3. NVLink：高帶寬、低延遲的GPU到GPU互連，顯著提高了GPU之間的數(shù)據(jù)傳輸速率。

圖2：呈現(xiàn)了NVIDIA支持GPU中心通信和網(wǎng)絡(luò)的技術(shù)時間線。

4. CUDA IPC：允許同一節(jié)點上的進(jìn)程訪問其他進(jìn)程的器件緩沖區(qū)，無需額外復(fù)制。

5. 統(tǒng)一內(nèi)存(UVM)：創(chuàng)建一個節(jié)點內(nèi)所有處理器可訪問的單一地址空間，自動管理CPU和GPU內(nèi)存之間的數(shù)據(jù)移動。

4 [- j* h- }+ m2 y) I
GPU中心通信庫
幾個庫已經(jīng)開發(fā)出來利用這些技術(shù)并提供高效GPU為中心的通信：

GPU感知MPI：可以區(qū)分主機(jī)和器件緩沖區(qū)的MPI實現(xiàn)，允許GPU之間直接通信，無需通過主機(jī)內(nèi)存中轉(zhuǎn)。

NCCL (NVIDIA集體通信庫)：提供針對深度學(xué)習(xí)工作負(fù)載優(yōu)化的拓?fù)涓兄w原語，用于GPU間通信。

NVSHMEM：NVIDIA對CUDA器件OpenSHMEM規(guī)范的實現(xiàn)，為進(jìn)程提供高效的單邊put/get API以訪問遠(yuǎn)程數(shù)據(jù)對象。

ROC_SHMEM：AMD對NVSHMEM的對應(yīng)實現(xiàn)，為AMD GPU提供類似功能。
[/ol]

圖3：展示了各種以GPU為中心的通信方法的節(jié)點間通信數(shù)據(jù)和控制路徑。

' u! t" N0 e8 [$ z& k
挑戰(zhàn)和未來方向
以GPU為中心的通信提供了顯著優(yōu)勢，但仍存在幾個挑戰(zhàn)和未來研究方向：

語義不匹配：MPI和GPU編程模型之間存在根本的語義不匹配，因為MPI不了解GPU流。這可能導(dǎo)致強(qiáng)制同步和內(nèi)核啟動流水線受損。

資源爭用：當(dāng)通信和計算都由GPU線程執(zhí)行時，它們會爭用相同的有限資源，可能導(dǎo)致性能問題。

內(nèi)存一致性：確保內(nèi)核運行時GPU和NIC內(nèi)存之間的一致性可能具有挑戰(zhàn)性，特別是對于持久內(nèi)核。

集體算法設(shè)計：多GPU系統(tǒng)復(fù)雜且非傳統(tǒng)的拓?fù)浣Y(jié)構(gòu)，以及GPU對之間不均勻的帶寬，使設(shè)計高效的集體通信算法變得復(fù)雜。
[/ol]
未來研究方向包括：

無CPU網(wǎng)絡(luò)：將整個網(wǎng)絡(luò)棧移至GPU，實現(xiàn)完全自主的多GPU執(zhí)行。

更廣泛的GPU自主性：使GPU能夠處理傳統(tǒng)上由CPU管理的任務(wù)，如文件系統(tǒng)訪問和系統(tǒng)調(diào)用。

改進(jìn)調(diào)試和分析工具：開發(fā)能夠監(jiān)控和可視化GPU中心通信的工具，包括器件原生傳輸和多GPU環(huán)境中的競爭檢測。
[/ol]
結(jié)論
以GPU為中心的通信代表了多GPU執(zhí)行范式的重大轉(zhuǎn)變，提供了提高性能、降低延遲和增強(qiáng)可擴(kuò)展性的潛力。隨著GPU繼續(xù)主導(dǎo)HPC和ML領(lǐng)域，理解和利用這些通信技術(shù)對于開發(fā)人員、研究人員和系統(tǒng)設(shè)計師來說將變得越來越重要，以便從多GPU系統(tǒng)中獲得最大性能。

以GPU為中心的通信領(lǐng)域正在迅速發(fā)展，新的硬件特性、軟件庫和編程模型不斷涌現(xiàn)。了解這些發(fā)展及其影響對于任何使用大規(guī)模GPU加速系統(tǒng)的人來說都是必要的。

展望未來，可以期待GPU中心通信的進(jìn)一步優(yōu)化，這將由硬件互連的進(jìn)步、更復(fù)雜的軟件庫和創(chuàng)新的編程模型推動。這些發(fā)展將繼續(xù)推動高性能計算和機(jī)器學(xué)習(xí)的邊界，使更復(fù)雜和要求更高的應(yīng)用能夠在大規(guī)模GPU集群上高效運行。

參考文獻(xiàn)
[1] D. Unat et al., "The Landscape of GPU-Centric Communication," ACM Comput. Surv., vol. 37, no. 4, Article 111, Aug. 2024.

- END -

軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用，PIC Studio都可提升您的工作效能。
點擊左下角"閱讀原文"馬上申請

歡迎轉(zhuǎn)載

轉(zhuǎn)載請注明出處，請勿修改內(nèi)容和刪除作者信息！

" q0 \2 X q) |: H5 i" g9 w% q

關(guān)注我們

9 q4 o8 i4 s& D2 ~* s ]

關(guān)于我們：
深圳逍遙科技有限公司（Latitude Design Automation Inc.）是一家專注于半導(dǎo)體芯片設(shè)計自動化（EDA）的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件，提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio，分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù)，廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作，推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展，致力于為客戶提供前沿技術(shù)與服務(wù)。

http://www.latitudeda.com/
（點擊上方名片關(guān)注我們，發(fā)現(xiàn)更多精彩內(nèi)容）

以GPU為中心的通信

發(fā)表回復(fù)

精選推薦