|
引言8 J. K7 f Z* {8 V# U$ s5 Y) ^
高性能計(jì)算(HPC)和機(jī)器學(xué)習(xí)(ML)領(lǐng)域已經(jīng)因GPU的廣泛應(yīng)用而發(fā)生了變革。截至2024年6月,世界排名前10的超級計(jì)算機(jī)中有9個依賴GPU集群進(jìn)行加速。GPU在計(jì)算方面表現(xiàn)出色,但GPU之間的通信可能成為重大瓶頸,特別是當(dāng)每個節(jié)點(diǎn)和集群中的GPU數(shù)量增加時。
$ Z# ]' u- d9 w1 L) k$ j+ z: g' D1 k% E: }# k2 b
傳統(tǒng)上,多GPU通信由CPU管理。然而,近期以GPU為中心的通信進(jìn)展正在挑戰(zhàn)這一范式,減少CPU參與,賦予GPU更多通信任務(wù)自主權(quán),并解決多GPU通信與計(jì)算之間的不匹配問題[1]。4 S3 {7 L) u M" S6 a8 _" h
' q* |# i# j7 r: V! k
dln2bfcsmn164029997221.png (97.26 KB, 下載次數(shù): 11)
下載附件
保存到相冊
dln2bfcsmn164029997221.png
2024-10-1 01:07 上傳
( Z: w I; F. u6 ]! v( }
圖1:展示了不同類型的節(jié)點(diǎn)內(nèi)通信方法的數(shù)據(jù)路徑和API調(diào)用。- @, I0 j* F% n% b6 ^1 v
: ~6 T+ E) V3 E# a& [7 t" o
理解GPU中心通信
/ z1 B9 {% \) r2 [" VGPU中心通信可以廣泛定義為減少CPU在多GPU執(zhí)行關(guān)鍵路徑中參與的機(jī)制。這包括供應(yīng)商層面的改進(jìn)(賦予GPU通信自主權(quán))和利用這些改進(jìn)的用戶層面實(shí)現(xiàn)。
# J7 k# W9 W- J1 s6 Y
/ R) k9 K" M0 T' YGPU中心通信主要分為兩類:9 V2 X, `# ~4 r
節(jié)點(diǎn)內(nèi)通信:在單個節(jié)點(diǎn)內(nèi)進(jìn)行通信,該節(jié)點(diǎn)包含多個連接到共享內(nèi)存主機(jī)的GPU卡。節(jié)點(diǎn)間通信:跨多個節(jié)點(diǎn)進(jìn)行通信,每個GPU由不同的進(jìn)程控制,不同節(jié)點(diǎn)上的進(jìn)程之間不共享內(nèi)存。
: L" E( w! S- |2 A% \+ {, _- N5 D, }. u# Q }* O
支持GPU中心通信的關(guān)鍵技術(shù)
4 O* \/ _9 J( ]5 A% Z" X幾項(xiàng)技術(shù)為高效的GPU中心通信奠定了基礎(chǔ):) t5 }) z5 G$ Y' U
& P' I+ k$ ~- I0 o2 T" @, W
1. 統(tǒng)一虛擬尋址(UVA):在CUDA 4.0中引入,UVA允許節(jié)點(diǎn)內(nèi)的所有GPU和CPU共享同一統(tǒng)一虛擬地址空間,簡化了內(nèi)存管理。
9 U( A# i; K9 F% k/ ~3 D7 P5 W& }# e* D+ h
2. GPUDirect:一系列優(yōu)化GPU與其他器件之間數(shù)據(jù)傳輸?shù)募夹g(shù):; V2 J8 K8 K' G% i+ B. a
GPUDirect RDMA:支持NVIDIA GPU跨節(jié)點(diǎn)直接通信,無需CPU參與。GPUDirect P2P:允許同一PCIe根復(fù)合體上的GPU之間直接內(nèi)存訪問。
4 y. f6 j \3 ^$ @6 l6 F7 X/ d" ~9 j
3 ?' B8 u5 X8 A3. NVLink:高帶寬、低延遲的GPU到GPU互連,顯著提高了GPU之間的數(shù)據(jù)傳輸速率。
) R- i# x5 L% x+ M' C2 ~# ]4 P/ @% j: i# `% I( J6 i5 l
wlnjf4vbo4i64029997321.png (147.58 KB, 下載次數(shù): 12)
下載附件
保存到相冊
wlnjf4vbo4i64029997321.png
2024-10-1 01:07 上傳
- v0 \& m1 u( h4 b+ E c+ l8 P G圖2:呈現(xiàn)了NVIDIA支持GPU中心通信和網(wǎng)絡(luò)的技術(shù)時間線。, ^* ^( k' V8 d6 B
+ M2 W$ J. x6 J! A- }+ }5 _' M
4. CUDA IPC:允許同一節(jié)點(diǎn)上的進(jìn)程訪問其他進(jìn)程的器件緩沖區(qū),無需額外復(fù)制。# c% M4 H; h" a) V
; W! q2 Q! ^8 j! l) H, i
5. 統(tǒng)一內(nèi)存(UVM):創(chuàng)建一個節(jié)點(diǎn)內(nèi)所有處理器可訪問的單一地址空間,自動管理CPU和GPU內(nèi)存之間的數(shù)據(jù)移動。" l5 ~7 ?* v2 O, d3 x- S$ C8 ?+ {
, ^* b7 w( e% [
* T _, q! K q! `* D: ^0 K5 Z! z0 _9 c
GPU中心通信庫' n. ~& T, Z( n
幾個庫已經(jīng)開發(fā)出來利用這些技術(shù)并提供高效GPU為中心的通信:
5 l; |+ F6 V9 H; \* ?GPU感知MPI:可以區(qū)分主機(jī)和器件緩沖區(qū)的MPI實(shí)現(xiàn),允許GPU之間直接通信,無需通過主機(jī)內(nèi)存中轉(zhuǎn)。NCCL (NVIDIA集體通信庫):提供針對深度學(xué)習(xí)工作負(fù)載優(yōu)化的拓?fù)涓兄w原語,用于GPU間通信。NVSHMEM:NVIDIA對CUDA器件OpenSHMEM規(guī)范的實(shí)現(xiàn),為進(jìn)程提供高效的單邊put/get API以訪問遠(yuǎn)程數(shù)據(jù)對象。ROC_SHMEM:AMD對NVSHMEM的對應(yīng)實(shí)現(xiàn),為AMD GPU提供類似功能。
& D( ]5 j5 b# g9 x+ s" f[/ol]
# I" _# O1 F6 X6 T' l- V" b: g" Y! [( H$ e3 l$ r z
qgpmxzuax3564029997421.png (123.58 KB, 下載次數(shù): 13)
下載附件
保存到相冊
qgpmxzuax3564029997421.png
2024-10-1 01:07 上傳
1 c: z( _3 h* L' Y圖3:展示了各種以GPU為中心的通信方法的節(jié)點(diǎn)間通信數(shù)據(jù)和控制路徑。7 s$ S* U4 Y* Q N+ l6 z" J1 S
z i; b5 Z! {9 ]# p7 e
" ~* S5 l, f% ^
挑戰(zhàn)和未來方向
# n* } u! q, c1 t; c' E- J以GPU為中心的通信提供了顯著優(yōu)勢,但仍存在幾個挑戰(zhàn)和未來研究方向:' ~: _# S8 S4 ]* o/ |
語義不匹配:MPI和GPU編程模型之間存在根本的語義不匹配,因?yàn)镸PI不了解GPU流。這可能導(dǎo)致強(qiáng)制同步和內(nèi)核啟動流水線受損。資源爭用:當(dāng)通信和計(jì)算都由GPU線程執(zhí)行時,它們會爭用相同的有限資源,可能導(dǎo)致性能問題。內(nèi)存一致性:確保內(nèi)核運(yùn)行時GPU和NIC內(nèi)存之間的一致性可能具有挑戰(zhàn)性,特別是對于持久內(nèi)核。集體算法設(shè)計(jì):多GPU系統(tǒng)復(fù)雜且非傳統(tǒng)的拓?fù)浣Y(jié)構(gòu),以及GPU對之間不均勻的帶寬,使設(shè)計(jì)高效的集體通信算法變得復(fù)雜。( w3 K$ u7 `1 v2 [! K
[/ol]
3 P2 u8 z8 x7 z未來研究方向包括:! O& {- A# [& V; C
無CPU網(wǎng)絡(luò):將整個網(wǎng)絡(luò)棧移至GPU,實(shí)現(xiàn)完全自主的多GPU執(zhí)行。更廣泛的GPU自主性:使GPU能夠處理傳統(tǒng)上由CPU管理的任務(wù),如文件系統(tǒng)訪問和系統(tǒng)調(diào)用。改進(jìn)調(diào)試和分析工具:開發(fā)能夠監(jiān)控和可視化GPU中心通信的工具,包括器件原生傳輸和多GPU環(huán)境中的競爭檢測。# [- [5 {6 P. ?7 h' B) ~- d1 b3 Z+ S
[/ol]
* m" @1 [1 A3 L. G! n7 X6 U* h結(jié)論
& N, E h4 P! r: U) V' X" b以GPU為中心的通信代表了多GPU執(zhí)行范式的重大轉(zhuǎn)變,提供了提高性能、降低延遲和增強(qiáng)可擴(kuò)展性的潛力。隨著GPU繼續(xù)主導(dǎo)HPC和ML領(lǐng)域,理解和利用這些通信技術(shù)對于開發(fā)人員、研究人員和系統(tǒng)設(shè)計(jì)師來說將變得越來越重要,以便從多GPU系統(tǒng)中獲得最大性能。1 m0 m! X4 i: E% D: F9 K, l3 Y
+ _7 H9 |/ D K
以GPU為中心的通信領(lǐng)域正在迅速發(fā)展,新的硬件特性、軟件庫和編程模型不斷涌現(xiàn)。了解這些發(fā)展及其影響對于任何使用大規(guī)模GPU加速系統(tǒng)的人來說都是必要的。
! g; c$ ^) B+ c& E) y' q& d
5 z$ @' o/ t/ C3 n c/ s) T0 K展望未來,可以期待GPU中心通信的進(jìn)一步優(yōu)化,這將由硬件互連的進(jìn)步、更復(fù)雜的軟件庫和創(chuàng)新的編程模型推動。這些發(fā)展將繼續(xù)推動高性能計(jì)算和機(jī)器學(xué)習(xí)的邊界,使更復(fù)雜和要求更高的應(yīng)用能夠在大規(guī)模GPU集群上高效運(yùn)行。# ]0 V8 C& Q8 R; V4 F: z5 h2 U, s3 y- {
: I3 y4 o. O# C9 R9 }# U+ o' s( K參考文獻(xiàn)7 t3 J/ Z. H" \
[1] D. Unat et al., "The Landscape of GPU-Centric Communication," ACM Comput. Surv., vol. 37, no. 4, Article 111, Aug. 2024.7 @) U/ G0 K8 ?! Q; L/ _( V
6 h0 B" _7 S( G- x8 Q. H! k, H5 _
, K8 c4 T, V: b8 O6 t+ e- END -
7 U, N0 d' Y# A: O0 Y% ~' z/ p' T7 e% W* C% ?
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。 p' Y& w* m) a" k7 C9 ?
點(diǎn)擊左下角"閱讀原文"馬上申請 [8 U9 U1 U( _3 y
8 p( ^$ f: Y# J$ r8 h/ x- S( _; F歡迎轉(zhuǎn)載% s/ l: V2 H2 u$ H
2 _ S3 K2 q2 }3 r4 _轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
' |1 |6 V" ~; m" }9 `
; S$ h5 J+ n- Q3 G5 B6 z2 a k& P6 M# F7 J3 y: y$ M: |
: K% A- a; i; @! V! O
0au4eoo2ehh64029997521.gif (16.04 KB, 下載次數(shù): 12)
下載附件
保存到相冊
0au4eoo2ehh64029997521.gif
2024-10-1 01:07 上傳
0 y$ @' v4 I7 Z. }
) F# Q) P1 l, V. \關(guān)注我們
4 @) U$ q6 X" e" G$ t! i5 \& ^3 N1 J( Q2 ~
" Y0 C% h" w" @" f7 d, b
5ej2rrfoyfj64029997621.png (31.33 KB, 下載次數(shù): 11)
下載附件
保存到相冊
5ej2rrfoyfj64029997621.png
2024-10-1 01:07 上傳
) L( ~& }: J: y% _2 D3 Y# B
| ! d) d0 x+ X' R
m1vkzzacjn164029997721.png (82.79 KB, 下載次數(shù): 11)
下載附件
保存到相冊
m1vkzzacjn164029997721.png
2024-10-1 01:07 上傳
2 G3 W' e$ ^4 e M: g8 Y
| 0 b. A/ I- w: V$ D) ^7 v9 f& j
rx51yznhvkh64029997821.png (21.52 KB, 下載次數(shù): 11)
下載附件
保存到相冊
rx51yznhvkh64029997821.png
2024-10-1 01:07 上傳
7 c \ f6 ]6 `: ?' E | ; U4 |# ]% q7 |5 j6 Y* o. M) D
0 B; E6 _# X" W$ c, w' L% F
# [. i3 o. ~ D5 z
0 h% o! Y& `9 x) B( v5 O j- j; r關(guān)于我們:' ?! p& E& Z$ ?- J$ B2 b; P
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
+ o- p1 o; \; A
- p' d$ W4 g# p J' ~8 `http://www.latitudeda.com/! Z3 K1 k1 G6 p
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|