|
引言
* @& P b1 Y0 i. ^1 y" A本文旨在幫助讀者了解AMD Instinct MI300X加速器,這款加速器代表了人工智能(AI)和高性能計算(HPC)技術(shù)的進(jìn)步[1]。我們將探討MI300X的架構(gòu)、特性和性能,展示其如何滿足生成式AI和大型語言模型(LLMs)不斷增長的需求。
( @' _( m8 f: A" I% P0 q1 [% j- U8 x8 [) M1 }
AMD Instinct MI300X簡介
3 `2 `9 B+ p* i7 {) VAMD Instinct MI300X是AMD持續(xù)推進(jìn)HPC和AI計算能力的成果。在其前代產(chǎn)品的基礎(chǔ)上,MI300X專注于統(tǒng)一內(nèi)存、AI數(shù)據(jù)格式性能和節(jié)點(diǎn)內(nèi)網(wǎng)絡(luò)通信的改進(jìn)。
8 F2 q) I( ^5 q! `9 M# p5 T8 a6 c" [0 b
q2iowyshnqu64024937633.png (298.57 KB, 下載次數(shù): 6)
下載附件
保存到相冊
q2iowyshnqu64024937633.png
2024-9-30 01:35 上傳
; U$ A1 O$ N; A; P" B. p2 l
圖1:AMD Instinct加速器的演進(jìn)歷程,展示了從MI100到MI300X的技術(shù)發(fā)展重點(diǎn)。
' o! c7 t; S+ L/ u4 N! u5 W. P* p1 a2 {" M1 M
架構(gòu)概述9 Q' ^0 K \# ?: z
MI300X的核心是AMD CDNA 3架構(gòu),采用多Chiplet設(shè)計,包含1530億個晶體管,使用臺積電5nm和6nm FinFET工藝制造。
; B }; f% f$ e: N& P; }5 z
yh3125r1hyw64024937733.png (819.88 KB, 下載次數(shù): 6)
下載附件
保存到相冊
yh3125r1hyw64024937733.png
2024-9-30 01:35 上傳
0 V. J( C0 h% D- I1 ?& B& v5 o4 o圖2:詳細(xì)展示了AMD Instinct MI300X多Chiplet加速器的結(jié)構(gòu),包括多個XCD(GPU Chiplet)、HBM3內(nèi)存和互連設(shè)計。% d2 X1 R. }' v0 j
8 P" t: W4 u {3 uMI300X的主要特性包括:
4 A1 ?$ Q' `! c( r( Y* p304個計算單元1,216個矩陣核心192GB HBM3內(nèi)存,帶寬達(dá)5.2 TB/s第四代Infinity Fabric,帶寬高達(dá)896 GB/s+ a- l. ?, I% u5 D( \0 K
8 Q8 C9 D9 U' u/ E8 k$ ?: ~4 FMI300X的架構(gòu)針對AI工作負(fù)載進(jìn)行了優(yōu)化,特別是在矩陣運(yùn)算和低精度計算方面。
# N: b# B- @- x7 ~ x1 Y$ H* b/ ~ J0 i R( \) j! y7 B* ^& y
CDNA 3架構(gòu)改進(jìn)
1 Y: K) x+ x" Y1 Q' W5 o- S8 V# z* bCDNA 3架構(gòu)相比前代產(chǎn)品有顯著提升:/ |9 p6 }0 k9 {, o9 X) e( d9 y
每時鐘周期每計算單元的低精度矩陣運(yùn)算能力翻倍支持INT8、FP8、FP16和BF16格式的2:4結(jié)構(gòu)化稀疏性新增TF32和FP8數(shù)值格式支持支持各種浮點(diǎn)和整數(shù)運(yùn)算的并發(fā)執(zhí)行# O' ]6 K! B5 j4 g2 l
7 O! P7 W r! o \7 F1 T& V# E C% E2 {
ogek23y05in64024937833.png (67.16 KB, 下載次數(shù): 7)
下載附件
保存到相冊
ogek23y05in64024937833.png
2024-9-30 01:35 上傳
3 U' b- ]) {2 q; p
圖3:MI300X與MI250X計算能力的詳細(xì)對比,突顯各種數(shù)據(jù)格式的性能提升。! I. L7 j' ]1 D! i" A2 d
% P' `/ |) `6 h! y1 ~4 j
, q8 c# `# U( \+ O內(nèi)存系統(tǒng)
+ l% G1 K# F- D, O' }5 k, kMI300X的一個突出特點(diǎn)是其內(nèi)存系統(tǒng):5 _$ W" n% _% k( T% i: ?5 Y* N
全球首個8堆棧HBM3內(nèi)存架構(gòu)每個加速器配備192GB HBM3內(nèi)存5.2 TB/s的內(nèi)存帶寬
1 a" n g% w' n) L
- P0 r3 C/ y; D1 E這種大容量內(nèi)存使MI300X能夠處理比競爭對手更大的AI模型。例如,單個MI300X平臺可以支持高達(dá)6800億參數(shù)的LLM推理任務(wù)。
" m! _" V* ]4 {- K' r1 \. t
abjx3vckule64024937933.png (71.21 KB, 下載次數(shù): 6)
下載附件
保存到相冊
abjx3vckule64024937933.png
2024-9-30 01:35 上傳
3 T4 G, R3 l( W7 ]) y% a圖4:AMD Instinct MI300X與NVIDIA H100內(nèi)存容量和帶寬的對比。
+ s3 i. l" R0 Y0 b+ w! P: _& w2 ]7 N0 g: Y: l9 Y1 Y, P
緩存層級和Infinity Cache
! E/ o3 F9 V! S2 uMI300X具有復(fù)雜的緩存層級結(jié)構(gòu):
7 ? g4 l: M. l每個計算單元32 KiB L1數(shù)據(jù)緩存每兩個計算單元共享64 KiB L1指令緩存每個XCD有4 MiB L2緩存256 MiB Infinity Cache
( u( E( w' P+ y# n2 y4 U# `& r2 T7 i- A5 L! B6 M0 Y0 c- Z) r
$ g5 L% @2 d9 k& E$ v
4exaqyeliv064024938033.png (308.15 KB, 下載次數(shù): 7)
下載附件
保存到相冊
4exaqyeliv064024938033.png
2024-9-30 01:35 上傳
! m4 N5 K! J q4 j* q1 Z: i圖5:MI300X的緩存和內(nèi)存層級結(jié)構(gòu)圖。1 `1 I; c0 g) n; K- X% K; T% @/ |
6 O5 I& e- @6 P
Infinity Cache是一個亮點(diǎn)特性,提供256 MB緩存,峰值帶寬達(dá)14.7 TB/s,在帶寬放大、功耗降低和延遲改善方面帶來顯著益處。5 M( B, Y4 {6 R/ D( }# k( O/ p- d
! g5 @; e8 S5 U8 [
空間分區(qū)和虛擬化
[( g$ l9 p- g, O$ o4 NMI300X支持靈活的空間分區(qū),允許將GPU分為多個分區(qū):: n. c- ~( t+ D( u- j) `
可以分為與XCD數(shù)量相等的分區(qū)支持單根I/O虛擬化(SR-IOV),每個平臺最多64個虛擬功能(VF)支持動態(tài)重新分區(qū)以優(yōu)化工作負(fù)載
1 O, z- b. J1 w C' ]
1 j2 p* I4 i5 g) d8 U. W# o; [7 L7 H2 Z6 h I o0 H
ggm0g4zyhjz64024938133.png (455.73 KB, 下載次數(shù): 7)
下載附件
保存到相冊
ggm0g4zyhjz64024938133.png
2024-9-30 01:35 上傳
$ b! z' ~, W1 w2 Q; i; X. {圖6:展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置,突顯其在不同工作負(fù)載和虛擬化場景下的靈活性。0 e; M' G+ P: \! E" Q- [
7 W; E" I6 p$ rAMD Instinct MI300X平臺' h" Q. ?/ J; `/ {; U( ]' u1 j
MI300X設(shè)計為在平臺配置中工作,通常包括:
/ [- m+ h& b( m' ~1 u9 k8個AMD Instinct MI300X加速器BF16/FP16性能約為10.4 PetaFLOPS總計1.5 TB HBM3內(nèi)存Infinity Fabric帶寬約為896 GB/s0 l8 f1 s. d1 A" A& `' a
; a$ P' `/ L# k. G4 N1 u0 V
# ^2 p) q) l+ o/ b* H) }! ~
fxyxxvy0tm164024938233.png (281.38 KB, 下載次數(shù): 7)
下載附件
保存到相冊
fxyxxvy0tm164024938233.png
2024-9-30 01:35 上傳
* ]: v0 p. w/ t圖7:AMD Instinct MI300X平臺的概覽,展示其作為領(lǐng)先生成式AI平臺的關(guān)鍵特性。$ V2 Q m2 W1 M) ~& j! Q
( n6 k, {9 m; M% n& E& C7 }- X
Infinity平臺和生態(tài)系統(tǒng)
2 f, x2 Y {# Z. UMI300X Infinity平臺通過AMD Infinity Fabric為8個OAM(開放加速器模塊)提供直接連接:
5 w/ W& f$ X9 |! N. p4 z2 X七個雙向鏈路,每個帶寬為128 GB/s每個OAM配備PCIe Gen 5 x16,用于服務(wù)器連接和I/O192GB HBM用于RDMA(遠(yuǎn)程直接內(nèi)存訪問)0 \/ C& d6 t- L) d
% n, N- w$ j6 i+ _5 Y7 W! o# X
0 f1 ]' B# g8 i$ f3 r
bfmnlzuyiwz64024938334.png (176.31 KB, 下載次數(shù): 7)
下載附件
保存到相冊
bfmnlzuyiwz64024938334.png
2024-9-30 01:35 上傳
+ C) }; h7 {# g& S4 o D2 i d" P% \圖8:展示了MI300X Infinity平臺的結(jié)構(gòu),說明了多個MI300X加速器之間的互連以及與主機(jī)服務(wù)器的連接方式。1 e+ B% X6 u9 m F) F' E
: H# r! x2 W+ W# {0 O0 }該平臺還符合行業(yè)標(biāo)準(zhǔn)并提供高級特性:
- _( H0 R9 }$ ^' a: q# g6 n符合UBB 2.0標(biāo)準(zhǔn),實現(xiàn)快速部署和無縫數(shù)據(jù)中心集成增強(qiáng)的安全特性,包括SPDM認(rèn)證全面的RAS(可靠性、可用性、可服務(wù)性)特性先進(jìn)的遙測和固件管理功能0 j# n9 z& j1 w' h& x Q0 i
1 A8 F7 y5 v3 I. s5 I5 L
軟件生態(tài)系統(tǒng)
' I4 G, [$ b! X2 x1 EAMD為支持MI300X開發(fā)了軟件生態(tài)系統(tǒng):
4 Y! y. g2 s; k) E# |0 n1 iROCm(Radeon開放計算)平臺用于GPU計算針對AI和HPC工作負(fù)載優(yōu)化的庫支持流行的AI框架,如PyTorch和TensorFlow擴(kuò)展的開發(fā)者工具和運(yùn)行時環(huán)境
0 p6 S3 U: b2 j2 v" x" F" e: U4 [2 T, h( m) t0 r4 X$ v* ~
這個軟件棧確保開發(fā)者能在各種應(yīng)用中高效利用MI300X的能力。* A. z! C: o3 B/ s. q
/ p2 H# E- T; o9 e; @0 jAI工作負(fù)載性能( Y5 y& z1 S) i
MI300X在各種AI任務(wù)中展現(xiàn)了令人印象深刻的性能:
4 k6 C& B7 C4 Z3 U) `Meta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍Mistral-7B模型的吞吐量高出1.2倍在模型微調(diào)任務(wù)中表現(xiàn)出色
5 T9 f1 I8 g9 y, D% h6 f- }7 d9 C0 m) }1 n! z* R( S* V- _
# u' _/ x& R7 @, w0 u5 d# v% k: r
qdmdth2s0oc64024938434.png (91.95 KB, 下載次數(shù): 7)
下載附件
保存到相冊
qdmdth2s0oc64024938434.png
2024-9-30 01:35 上傳
. A! D8 x. S- q- j0 q8 a3 _圖9:AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對比。+ t3 r" W) w* G1 F0 U4 k
( }3 l: ]) [4 }+ `+ j, w
結(jié)論0 _8 f) B7 h3 g# R
AMD Instinct MI300X代表了AI和HPC工作負(fù)載加速器技術(shù)的進(jìn)步。其創(chuàng)新架構(gòu)、大容量內(nèi)存和強(qiáng)大的計算能力使其成為高端AI加速器市場的有力競爭者。隨著對更大、更復(fù)雜AI模型需求的不斷增長,MI300X高效處理這些工作負(fù)載的能力使其成為推動AI研究和部署的理想選擇。
! h% q% j ?# s# T) u: ]! G
( R6 H+ h. F( y9 j& d+ `憑借靈活的分區(qū)、先進(jìn)的內(nèi)存系統(tǒng)和強(qiáng)大的軟件生態(tài)系統(tǒng),MI300X完全有能力應(yīng)對從訓(xùn)練大型語言模型到加速推理任務(wù)的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴(kuò)展其AI產(chǎn)品線,MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計算領(lǐng)域推動創(chuàng)新的承諾。
" W+ x( k* m/ |' {) W/ D* c W# Q1 p8 @, I1 t- G5 R3 |% v( q
參考文獻(xiàn)
) D- S5 C/ j$ P5 r3 ^7 F2 V[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024. B- g* @% O; ]% D5 i' s% u: @. b
8 r2 J) X- l0 o6 l8 w' d
- END -
+ D" E2 N/ t: d* e. G- N$ g
6 O' @0 t0 a: [: k5 r# W軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。: [7 a( N1 R: A+ J- {
點(diǎn)擊左下角"閱讀原文"馬上申請
9 u" R% |6 @" W' \! p
) K4 I+ n x% I }# w4 D& c2 A! S' ]歡迎轉(zhuǎn)載
- {+ Z& `& d* a9 D& E7 Y5 F
% j5 S% Z- C8 y4 T! d1 z y. M( q( l轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
; n& f/ f8 e* _, ^
' @$ X5 r8 v) S0 {; W f# b% [. ^0 Y
4 `+ y' S. i& s# V7 J8 b3 g
whraycy4pwq64024938534.gif (16.04 KB, 下載次數(shù): 9)
下載附件
保存到相冊
whraycy4pwq64024938534.gif
2024-9-30 01:35 上傳
+ K9 A8 e9 Q& N: R1 Z& @4 N/ s; h% _
關(guān)注我們* A* ^1 p+ T5 ^) Y" ~
* v- G# H- }$ f, D8 k9 y3 P
% Y" N( I9 t8 I' k* E) f7 H% x
k5tkk1oi1r364024938634.png (31.33 KB, 下載次數(shù): 7)
下載附件
保存到相冊
k5tkk1oi1r364024938634.png
2024-9-30 01:35 上傳
( e( Z! Y7 ?$ n9 X" {1 D | 1 ~4 u$ ^7 G1 e+ c
an1bh1cylh464024938734.png (82.79 KB, 下載次數(shù): 6)
下載附件
保存到相冊
an1bh1cylh464024938734.png
2024-9-30 01:35 上傳
8 O: Y7 Q) M' ?' ? P |
% |2 a1 D3 ~$ }* b# T0 y4 K6 ]8 C
hktsuthux0d64024938834.png (21.52 KB, 下載次數(shù): 8)
下載附件
保存到相冊
hktsuthux0d64024938834.png
2024-9-30 01:35 上傳
% M( w& [9 _; W2 H- w: K% d
|
7 x% m! h9 c* v
) h; w" f2 `7 _/ c+ [
3 I& V9 g6 f# L. i* V0 h) ` s+ W% A: y( l* b2 {; a6 R
關(guān)于我們:' I7 {, K# G) D& |1 O4 T% K3 J! X
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。% g# T# c4 m5 k" A4 i: e+ V
7 V! W5 t/ P4 X8 o O; i" P* W6 Y
http://www.latitudeda.com/6 F( \% T" w( i8 f
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|