|
引言( H' V. y$ n4 [* y
高性能計算(HPC)和機(jī)器學(xué)習(xí)(ML)領(lǐng)域已經(jīng)因GPU的廣泛應(yīng)用而發(fā)生了變革。截至2024年6月,世界排名前10的超級計算機(jī)中有9個依賴GPU集群進(jìn)行加速。GPU在計算方面表現(xiàn)出色,但GPU之間的通信可能成為重大瓶頸,特別是當(dāng)每個節(jié)點和集群中的GPU數(shù)量增加時。
" W8 V6 h% }) }# I! B# i' M
/ ^2 |6 p0 p: H0 [- |% a傳統(tǒng)上,多GPU通信由CPU管理。然而,近期以GPU為中心的通信進(jìn)展正在挑戰(zhàn)這一范式,減少CPU參與,賦予GPU更多通信任務(wù)自主權(quán),并解決多GPU通信與計算之間的不匹配問題[1]。( t& h. \% q9 @9 L* J, h5 k
2 t& Z6 a0 [9 x0 q. f! |
dln2bfcsmn164029997221.png (97.26 KB, 下載次數(shù): 9)
下載附件
保存到相冊
dln2bfcsmn164029997221.png
2024-10-1 01:07 上傳
4 B$ w" ^9 {& A% K6 L圖1:展示了不同類型的節(jié)點內(nèi)通信方法的數(shù)據(jù)路徑和API調(diào)用。
# J4 d1 k1 G' {: [; E' p$ Q+ d2 G6 V% d6 M
理解GPU中心通信
1 ?3 P& c( W# u CGPU中心通信可以廣泛定義為減少CPU在多GPU執(zhí)行關(guān)鍵路徑中參與的機(jī)制。這包括供應(yīng)商層面的改進(jìn)(賦予GPU通信自主權(quán))和利用這些改進(jìn)的用戶層面實現(xiàn)。
; ~) u. o+ A3 R4 I: O! j
" t+ j* c8 r5 g! N! I. QGPU中心通信主要分為兩類:* b+ F6 F& N0 [7 P' `
節(jié)點內(nèi)通信:在單個節(jié)點內(nèi)進(jìn)行通信,該節(jié)點包含多個連接到共享內(nèi)存主機(jī)的GPU卡。節(jié)點間通信:跨多個節(jié)點進(jìn)行通信,每個GPU由不同的進(jìn)程控制,不同節(jié)點上的進(jìn)程之間不共享內(nèi)存。
" `( q! j4 J4 Q9 o: z N9 `. n
# }! u6 l* L* d) \6 P/ _8 i支持GPU中心通信的關(guān)鍵技術(shù)
$ w6 h! F+ u/ q0 E* M. a- Y0 c3 i, @幾項技術(shù)為高效的GPU中心通信奠定了基礎(chǔ):
2 _! S: E- Y$ X. E# o, C3 j0 l& F
- o7 J! B& n! q2 T" O1. 統(tǒng)一虛擬尋址(UVA):在CUDA 4.0中引入,UVA允許節(jié)點內(nèi)的所有GPU和CPU共享同一統(tǒng)一虛擬地址空間,簡化了內(nèi)存管理。3 B9 t2 w- `7 `3 @
6 F5 a& P3 B, x- M% B
2. GPUDirect:一系列優(yōu)化GPU與其他器件之間數(shù)據(jù)傳輸?shù)募夹g(shù):
: j/ k J, K$ b! L2 j. s/ R5 PGPUDirect RDMA:支持NVIDIA GPU跨節(jié)點直接通信,無需CPU參與。GPUDirect P2P:允許同一PCIe根復(fù)合體上的GPU之間直接內(nèi)存訪問。$ R! \2 O" |8 ]5 \; i6 b' G
3 Y8 `8 d( ]6 L: B4 Z3. NVLink:高帶寬、低延遲的GPU到GPU互連,顯著提高了GPU之間的數(shù)據(jù)傳輸速率。
) b& H$ P! ]/ a4 \2 o4 i9 v/ e E; ~, \* |5 V. n, {
wlnjf4vbo4i64029997321.png (147.58 KB, 下載次數(shù): 10)
下載附件
保存到相冊
wlnjf4vbo4i64029997321.png
2024-10-1 01:07 上傳
/ S, E) x5 p# J# N8 p
圖2:呈現(xiàn)了NVIDIA支持GPU中心通信和網(wǎng)絡(luò)的技術(shù)時間線。
' w2 ^( x5 T2 } O- Y! D9 d8 _$ w3 Y+ J6 o0 _# M7 r. {1 p$ E; f
4. CUDA IPC:允許同一節(jié)點上的進(jìn)程訪問其他進(jìn)程的器件緩沖區(qū),無需額外復(fù)制。
1 @2 r" C& x3 X
* a- V8 w2 a0 u7 H% ?* a# [: ?: X4 e5. 統(tǒng)一內(nèi)存(UVM):創(chuàng)建一個節(jié)點內(nèi)所有處理器可訪問的單一地址空間,自動管理CPU和GPU內(nèi)存之間的數(shù)據(jù)移動。$ H" \. c: {& n/ |) b
4 [- j* h- }+ m2 y) I2 \+ l' O! k& K' L
GPU中心通信庫$ ^( B; [4 l( U! q5 T
幾個庫已經(jīng)開發(fā)出來利用這些技術(shù)并提供高效GPU為中心的通信:% n( z2 \, D2 ?0 k
GPU感知MPI:可以區(qū)分主機(jī)和器件緩沖區(qū)的MPI實現(xiàn),允許GPU之間直接通信,無需通過主機(jī)內(nèi)存中轉(zhuǎn)。NCCL (NVIDIA集體通信庫):提供針對深度學(xué)習(xí)工作負(fù)載優(yōu)化的拓?fù)涓兄w原語,用于GPU間通信。NVSHMEM:NVIDIA對CUDA器件OpenSHMEM規(guī)范的實現(xiàn),為進(jìn)程提供高效的單邊put/get API以訪問遠(yuǎn)程數(shù)據(jù)對象。ROC_SHMEM:AMD對NVSHMEM的對應(yīng)實現(xiàn),為AMD GPU提供類似功能。5 `/ i( @& P9 o6 B" S6 F+ C/ n5 E" w
[/ol]
5 g( A, G1 \ A/ e' z* N3 K
, Y1 m4 R3 z, A: P) ]7 p5 `
qgpmxzuax3564029997421.png (123.58 KB, 下載次數(shù): 11)
下載附件
保存到相冊
qgpmxzuax3564029997421.png
2024-10-1 01:07 上傳
* t: B, p& H" Y" `圖3:展示了各種以GPU為中心的通信方法的節(jié)點間通信數(shù)據(jù)和控制路徑。
0 S, O) _1 c- T# o5 I
' u! t" N0 e8 [$ z& k
' g# k* |: Z; Y. o! w m( n/ k/ n挑戰(zhàn)和未來方向- j9 L6 W: f e- Z' i% Y: C
以GPU為中心的通信提供了顯著優(yōu)勢,但仍存在幾個挑戰(zhàn)和未來研究方向:
; t& `* M- \9 ]: X語義不匹配:MPI和GPU編程模型之間存在根本的語義不匹配,因為MPI不了解GPU流。這可能導(dǎo)致強(qiáng)制同步和內(nèi)核啟動流水線受損。資源爭用:當(dāng)通信和計算都由GPU線程執(zhí)行時,它們會爭用相同的有限資源,可能導(dǎo)致性能問題。內(nèi)存一致性:確保內(nèi)核運行時GPU和NIC內(nèi)存之間的一致性可能具有挑戰(zhàn)性,特別是對于持久內(nèi)核。集體算法設(shè)計:多GPU系統(tǒng)復(fù)雜且非傳統(tǒng)的拓?fù)浣Y(jié)構(gòu),以及GPU對之間不均勻的帶寬,使設(shè)計高效的集體通信算法變得復(fù)雜。- j% u8 K4 s* [# `0 ^2 l8 H
[/ol]
% y) v2 z) h/ Z# C6 V未來研究方向包括:
7 f# _ e" y5 \( U無CPU網(wǎng)絡(luò):將整個網(wǎng)絡(luò)棧移至GPU,實現(xiàn)完全自主的多GPU執(zhí)行。更廣泛的GPU自主性:使GPU能夠處理傳統(tǒng)上由CPU管理的任務(wù),如文件系統(tǒng)訪問和系統(tǒng)調(diào)用。改進(jìn)調(diào)試和分析工具:開發(fā)能夠監(jiān)控和可視化GPU中心通信的工具,包括器件原生傳輸和多GPU環(huán)境中的競爭檢測。5 _% N4 ] P0 {+ g* C% P' L* B- z
[/ol]
, P9 F/ x1 o7 l5 r結(jié)論. X' M2 V; y& |7 M: E+ Y, w
以GPU為中心的通信代表了多GPU執(zhí)行范式的重大轉(zhuǎn)變,提供了提高性能、降低延遲和增強(qiáng)可擴(kuò)展性的潛力。隨著GPU繼續(xù)主導(dǎo)HPC和ML領(lǐng)域,理解和利用這些通信技術(shù)對于開發(fā)人員、研究人員和系統(tǒng)設(shè)計師來說將變得越來越重要,以便從多GPU系統(tǒng)中獲得最大性能。 T7 f, x3 a* \( S% z5 y+ I2 \! G
( E/ S8 c* d x( g
以GPU為中心的通信領(lǐng)域正在迅速發(fā)展,新的硬件特性、軟件庫和編程模型不斷涌現(xiàn)。了解這些發(fā)展及其影響對于任何使用大規(guī)模GPU加速系統(tǒng)的人來說都是必要的。
" S" ~$ h, V8 e# I) G; I, f7 |' w' X+ p0 R+ V
展望未來,可以期待GPU中心通信的進(jìn)一步優(yōu)化,這將由硬件互連的進(jìn)步、更復(fù)雜的軟件庫和創(chuàng)新的編程模型推動。這些發(fā)展將繼續(xù)推動高性能計算和機(jī)器學(xué)習(xí)的邊界,使更復(fù)雜和要求更高的應(yīng)用能夠在大規(guī)模GPU集群上高效運行。
" N6 f- E; t6 k7 v2 \6 c
, X( Z y3 E- s+ i/ k參考文獻(xiàn)
I. [. t" ?, m4 w8 v) i[1] D. Unat et al., "The Landscape of GPU-Centric Communication," ACM Comput. Surv., vol. 37, no. 4, Article 111, Aug. 2024.
) ]. \& p! C+ P: u. X: \% I
. g' E7 c# T8 k N& P
3 Q2 x. s/ l& r- END -5 T; Y4 z5 p9 B/ z+ |
7 H: O, E# ]1 [, ^4 }軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
7 S ?% M- x0 @, {& ]6 N/ ?; Y點擊左下角"閱讀原文"馬上申請
; X9 |% B \' P4 L, M+ l7 }9 Y2 m$ d9 ^7 ]6 e6 U
歡迎轉(zhuǎn)載( @ |, S3 b* w5 q# [% O; z
8 F9 i0 I) N8 W轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!1 Q) D# h5 ^$ L# l9 G/ A9 ]
7 ]# e. A, L% Y# A5 m
" q0 \2 X q) |: H5 i" g9 w% q
! R6 p8 t6 j, |' E( U" z1 J; c
0au4eoo2ehh64029997521.gif (16.04 KB, 下載次數(shù): 9)
下載附件
保存到相冊
0au4eoo2ehh64029997521.gif
2024-10-1 01:07 上傳
8 B/ b! ~) r6 Z/ H5 Y f9 K: T
( Z: }& ]0 W; y0 T* j關(guān)注我們4 I" [2 |7 {/ Z w
! ?4 K' J- F) e
6 K) c- x" a L9 {
5ej2rrfoyfj64029997621.png (31.33 KB, 下載次數(shù): 9)
下載附件
保存到相冊
5ej2rrfoyfj64029997621.png
2024-10-1 01:07 上傳
Z4 Y5 ]0 C# k( E( @* {) h6 z |
0 a- o( k: p/ S. n/ M" Z F
m1vkzzacjn164029997721.png (82.79 KB, 下載次數(shù): 10)
下載附件
保存到相冊
m1vkzzacjn164029997721.png
2024-10-1 01:07 上傳
, n0 B/ L- y9 [4 D/ S
| , j4 e6 |! a" v( A! D0 A
rx51yznhvkh64029997821.png (21.52 KB, 下載次數(shù): 9)
下載附件
保存到相冊
rx51yznhvkh64029997821.png
2024-10-1 01:07 上傳
8 v& N0 T! X, v m
|
/ c2 |& V( l; {. {
9 q4 o8 i4 s& D2 ~* s ]
% `& a0 t9 A8 x/ x
6 \5 y: e/ ?4 y5 b9 T6 ?" @關(guān)于我們:" K2 N8 V G2 o2 R N2 ?% M
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
$ u: [9 }, W' [
$ W1 C/ a! ~0 M3 d5 W4 |http://www.latitudeda.com/* H) S4 A' {$ _( X* u/ r5 h8 }
(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|