|
引言
4 I; Y% W4 Q: h) D& P本文旨在幫助讀者了解AMD Instinct MI300X加速器,這款加速器代表了人工智能(AI)和高性能計(jì)算(HPC)技術(shù)的進(jìn)步[1]。我們將探討MI300X的架構(gòu)、特性和性能,展示其如何滿(mǎn)足生成式AI和大型語(yǔ)言模型(LLMs)不斷增長(zhǎng)的需求。# `7 f0 e% r2 _. y5 M
! H% `/ r/ _8 s9 y! r' O; GAMD Instinct MI300X簡(jiǎn)介) o% ?3 X+ w. u
AMD Instinct MI300X是AMD持續(xù)推進(jìn)HPC和AI計(jì)算能力的成果。在其前代產(chǎn)品的基礎(chǔ)上,MI300X專(zhuān)注于統(tǒng)一內(nèi)存、AI數(shù)據(jù)格式性能和節(jié)點(diǎn)內(nèi)網(wǎng)絡(luò)通信的改進(jìn)。# ~3 M0 j, ?( E' C2 w z, L
7 j: m7 \1 F! A. _. ?; C( `# `5 T
q2iowyshnqu64024937633.png (298.57 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
q2iowyshnqu64024937633.png
2024-9-30 01:35 上傳
# T& Q* Y1 u; j" G9 g5 ^$ w7 d O# A
圖1:AMD Instinct加速器的演進(jìn)歷程,展示了從MI100到MI300X的技術(shù)發(fā)展重點(diǎn)。
8 w o$ k' U" [1 q0 d2 ]& K; F$ K; N9 E+ X& Z0 T
架構(gòu)概述
$ ]# p5 { ^; MMI300X的核心是AMD CDNA 3架構(gòu),采用多Chiplet設(shè)計(jì),包含1530億個(gè)晶體管,使用臺(tái)積電5nm和6nm FinFET工藝制造。
7 o! X {1 r1 M! y; _; m; h
yh3125r1hyw64024937733.png (819.88 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
yh3125r1hyw64024937733.png
2024-9-30 01:35 上傳
' f# J: ^& |0 s) M4 Z
圖2:詳細(xì)展示了AMD Instinct MI300X多Chiplet加速器的結(jié)構(gòu),包括多個(gè)XCD(GPU Chiplet)、HBM3內(nèi)存和互連設(shè)計(jì)。
0 w# w+ h7 K( P8 R# i4 L1 F9 q* t: e; Q* U) t
MI300X的主要特性包括:
V, `7 K8 [ _) V! f304個(gè)計(jì)算單元1,216個(gè)矩陣核心192GB HBM3內(nèi)存,帶寬達(dá)5.2 TB/s第四代Infinity Fabric,帶寬高達(dá)896 GB/s- l" j0 Y3 w) X# u W' M
3 G7 P& U: u& H+ w
MI300X的架構(gòu)針對(duì)AI工作負(fù)載進(jìn)行了優(yōu)化,特別是在矩陣運(yùn)算和低精度計(jì)算方面。. }$ H, S- X0 B& j: J3 h$ H3 @
. l. C" Z/ a' q2 p$ x* {
CDNA 3架構(gòu)改進(jìn)' T8 l/ y9 u3 O4 y
CDNA 3架構(gòu)相比前代產(chǎn)品有顯著提升:
8 d& r9 p# w& L! W' l3 n* s每時(shí)鐘周期每計(jì)算單元的低精度矩陣運(yùn)算能力翻倍支持INT8、FP8、FP16和BF16格式的2:4結(jié)構(gòu)化稀疏性新增TF32和FP8數(shù)值格式支持支持各種浮點(diǎn)和整數(shù)運(yùn)算的并發(fā)執(zhí)行
- r n4 Y5 ~1 A" v* A2 s6 O8 S9 D' }3 e2 {
v1 k6 p5 n7 V' A* y4 h
ogek23y05in64024937833.png (67.16 KB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
ogek23y05in64024937833.png
2024-9-30 01:35 上傳
4 L, `( A5 D0 Y$ u圖3:MI300X與MI250X計(jì)算能力的詳細(xì)對(duì)比,突顯各種數(shù)據(jù)格式的性能提升。; o- X3 j- @! F8 _8 f* M& _* |; u
) X3 Y7 R$ {% E+ `1 U/ U+ D# @5 X; H; p* D4 K& Z
內(nèi)存系統(tǒng)
5 P2 K: ], R, `6 KMI300X的一個(gè)突出特點(diǎn)是其內(nèi)存系統(tǒng):! ~) w( c! D: q; n
全球首個(gè)8堆棧HBM3內(nèi)存架構(gòu)每個(gè)加速器配備192GB HBM3內(nèi)存5.2 TB/s的內(nèi)存帶寬, u0 l5 i8 `' W& v+ E7 k4 D
, z+ I2 L5 \* T/ t這種大容量?jī)?nèi)存使MI300X能夠處理比競(jìng)爭(zhēng)對(duì)手更大的AI模型。例如,單個(gè)MI300X平臺(tái)可以支持高達(dá)6800億參數(shù)的LLM推理任務(wù)。8 g3 e0 U8 s- ^
abjx3vckule64024937933.png (71.21 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
abjx3vckule64024937933.png
2024-9-30 01:35 上傳
" F3 ?6 c2 `4 k& O4 X# }5 }, u
圖4:AMD Instinct MI300X與NVIDIA H100內(nèi)存容量和帶寬的對(duì)比。
. P s3 g- j/ }9 s* a9 X/ T1 Z! v. e7 W% C* l& u+ @8 {
緩存層級(jí)和Infinity Cache6 t e) \' W/ h( x5 T7 M& h
MI300X具有復(fù)雜的緩存層級(jí)結(jié)構(gòu):6 J8 S! q2 n/ _3 L* _
每個(gè)計(jì)算單元32 KiB L1數(shù)據(jù)緩存每?jī)蓚(gè)計(jì)算單元共享64 KiB L1指令緩存每個(gè)XCD有4 MiB L2緩存256 MiB Infinity Cache& h6 M3 G2 a. U* [" ]' |) r; P% j
6 y4 \- }% ^! @; `0 U0 `
2 E \$ w7 \# K! p9 t; w( R9 |4 B$ b# T
4exaqyeliv064024938033.png (308.15 KB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
4exaqyeliv064024938033.png
2024-9-30 01:35 上傳
$ z1 s: S' B8 H. A" j- o
圖5:MI300X的緩存和內(nèi)存層級(jí)結(jié)構(gòu)圖。1 T" |( O" T7 h8 D) O
6 r m8 I7 h2 E$ B: v+ {# D5 KInfinity Cache是一個(gè)亮點(diǎn)特性,提供256 MB緩存,峰值帶寬達(dá)14.7 TB/s,在帶寬放大、功耗降低和延遲改善方面帶來(lái)顯著益處。
$ s# d" h" t8 l- L/ C% G; Q% J" B) b2 q
空間分區(qū)和虛擬化
) p$ F1 ]% F) q( w# iMI300X支持靈活的空間分區(qū),允許將GPU分為多個(gè)分區(qū):
/ {* ?/ T9 r/ B( d+ G1 l3 E可以分為與XCD數(shù)量相等的分區(qū)支持單根I/O虛擬化(SR-IOV),每個(gè)平臺(tái)最多64個(gè)虛擬功能(VF)支持動(dòng)態(tài)重新分區(qū)以?xún)?yōu)化工作負(fù)載
; W& Z" C7 T' @- v( T- P2 O, b% Q# k4 W
X" Q' b/ Y- C$ Y
ggm0g4zyhjz64024938133.png (455.73 KB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
ggm0g4zyhjz64024938133.png
2024-9-30 01:35 上傳
' ^0 f% S" g, v, Y% p7 Y0 ?圖6:展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置,突顯其在不同工作負(fù)載和虛擬化場(chǎng)景下的靈活性。
0 q: _' r G& L$ C: G9 U* _- r8 i! K
3 _! G/ g* D' x( z7 T$ pAMD Instinct MI300X平臺(tái)
# { r1 y; i! b& N$ l* ?# ]1 v& gMI300X設(shè)計(jì)為在平臺(tái)配置中工作,通常包括:
3 q4 A- V7 I( A! T5 D2 K3 m8個(gè)AMD Instinct MI300X加速器BF16/FP16性能約為10.4 PetaFLOPS總計(jì)1.5 TB HBM3內(nèi)存Infinity Fabric帶寬約為896 GB/s% ^' ^% }5 g e8 e, M
$ h1 J0 ]& c3 S. i& ~: Z
9 f- j5 K5 B3 L/ p
fxyxxvy0tm164024938233.png (281.38 KB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
fxyxxvy0tm164024938233.png
2024-9-30 01:35 上傳
7 ?5 `( p, H3 c- C2 U' E- U圖7:AMD Instinct MI300X平臺(tái)的概覽,展示其作為領(lǐng)先生成式AI平臺(tái)的關(guān)鍵特性。
0 Z4 j- a, p! B7 Q8 E
9 G8 e, I# `6 I& M% W U- Z# t- ^Infinity平臺(tái)和生態(tài)系統(tǒng)
2 @: V( O+ E* k8 dMI300X Infinity平臺(tái)通過(guò)AMD Infinity Fabric為8個(gè)OAM(開(kāi)放加速器模塊)提供直接連接:
0 A2 z, {* R' Z( s+ {' r七個(gè)雙向鏈路,每個(gè)帶寬為128 GB/s每個(gè)OAM配備PCIe Gen 5 x16,用于服務(wù)器連接和I/O192GB HBM用于RDMA(遠(yuǎn)程直接內(nèi)存訪問(wèn))1 j) Q8 L' o- M( q
/ R& F; l0 b3 u5 f
8 H Q# ?0 t+ S( r5 E% |% x
bfmnlzuyiwz64024938334.png (176.31 KB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
bfmnlzuyiwz64024938334.png
2024-9-30 01:35 上傳
8 u7 U; D8 O4 u5 G
圖8:展示了MI300X Infinity平臺(tái)的結(jié)構(gòu),說(shuō)明了多個(gè)MI300X加速器之間的互連以及與主機(jī)服務(wù)器的連接方式。! c Y5 V( P; c5 u, g' f
" k+ [2 F9 L2 x該平臺(tái)還符合行業(yè)標(biāo)準(zhǔn)并提供高級(jí)特性:
5 ^+ _) ?" u: x0 N' x& E; e) t. [' @. j符合UBB 2.0標(biāo)準(zhǔn),實(shí)現(xiàn)快速部署和無(wú)縫數(shù)據(jù)中心集成增強(qiáng)的安全特性,包括SPDM認(rèn)證全面的RAS(可靠性、可用性、可服務(wù)性)特性先進(jìn)的遙測(cè)和固件管理功能
6 z: d- V" i* z/ d: u) n5 T4 P& P3 L v- L5 e* {5 n/ q
軟件生態(tài)系統(tǒng)
& d9 i$ K4 J* FAMD為支持MI300X開(kāi)發(fā)了軟件生態(tài)系統(tǒng):& f- g3 O l0 i5 m! j" H
ROCm(Radeon開(kāi)放計(jì)算)平臺(tái)用于GPU計(jì)算針對(duì)AI和HPC工作負(fù)載優(yōu)化的庫(kù)支持流行的AI框架,如PyTorch和TensorFlow擴(kuò)展的開(kāi)發(fā)者工具和運(yùn)行時(shí)環(huán)境
1 ~4 S, f) G/ Y# a" Y) {8 C1 Y9 D c! e% ]* O5 o
這個(gè)軟件棧確保開(kāi)發(fā)者能在各種應(yīng)用中高效利用MI300X的能力。
/ `+ k) R( h) f: j2 ?9 J! }& k( i5 E& x2 b0 I
AI工作負(fù)載性能# x2 L: a6 u' b: ^+ R v
MI300X在各種AI任務(wù)中展現(xiàn)了令人印象深刻的性能:
3 `6 V# h& t# j/ z2 R$ EMeta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍Mistral-7B模型的吞吐量高出1.2倍在模型微調(diào)任務(wù)中表現(xiàn)出色: e0 m3 n+ G; P, `
/ `2 B- Y5 @1 l
( m6 S; R" g# h2 l" |0 ]
qdmdth2s0oc64024938434.png (91.95 KB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
qdmdth2s0oc64024938434.png
2024-9-30 01:35 上傳
, k% P$ G0 O$ ~8 ~
圖9:AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對(duì)比。
1 N+ A7 Y, o* Z& L1 ]# S; }) ^/ I; p$ R, I2 F( s4 }0 j
結(jié)論2 c& h" n1 N( D$ R
AMD Instinct MI300X代表了AI和HPC工作負(fù)載加速器技術(shù)的進(jìn)步。其創(chuàng)新架構(gòu)、大容量?jī)?nèi)存和強(qiáng)大的計(jì)算能力使其成為高端AI加速器市場(chǎng)的有力競(jìng)爭(zhēng)者。隨著對(duì)更大、更復(fù)雜AI模型需求的不斷增長(zhǎng),MI300X高效處理這些工作負(fù)載的能力使其成為推動(dòng)AI研究和部署的理想選擇。& N# f Y& x, Q7 v1 r F
! c5 U, u6 Z# a6 i) P3 K) y
憑借靈活的分區(qū)、先進(jìn)的內(nèi)存系統(tǒng)和強(qiáng)大的軟件生態(tài)系統(tǒng),MI300X完全有能力應(yīng)對(duì)從訓(xùn)練大型語(yǔ)言模型到加速推理任務(wù)的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴(kuò)展其AI產(chǎn)品線,MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計(jì)算領(lǐng)域推動(dòng)創(chuàng)新的承諾。
4 N/ M, Y' e+ c/ H6 \' V7 D/ q2 f- n0 n0 Z
參考文獻(xiàn)
7 [$ s5 d9 |/ t& I[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.. m' c9 f3 k% T( N v" m" j
" ~. \3 i2 d/ Y+ D' M
- END -0 i; i/ \$ j$ N/ @
: o, ~1 [4 g( N
軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
( i- v& ?6 I! k1 I* ]3 G E點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)2 m9 R" A, w1 l! R
$ e# V: j/ V8 u' G+ u7 g5 E+ m歡迎轉(zhuǎn)載
& K/ i/ e8 U* v+ l: |. s$ @0 }) U; l" f" S; N5 @8 {
轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!6 D& x! o" J3 F
1 H9 _, H# {: F6 @; ~: ^- u
- m' o+ R' s9 S2 f( r$ j Y! u1 M- d) H; s1 g/ U( n
whraycy4pwq64024938534.gif (16.04 KB, 下載次數(shù): 9)
下載附件
保存到相冊(cè)
whraycy4pwq64024938534.gif
2024-9-30 01:35 上傳
+ n2 g4 H, v6 P( T7 z
3 g/ Z5 g6 Q- @$ s$ l2 \3 v2 d
關(guān)注我們2 ?( ]9 W7 Q# c8 F
7 M4 e& ]& w+ F7 c
8 J# C; `/ P. _, P4 D8 h1 r1 B
k5tkk1oi1r364024938634.png (31.33 KB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
k5tkk1oi1r364024938634.png
2024-9-30 01:35 上傳
0 a" z8 d( f/ p8 J% o | / [% E$ s1 W0 g( G; r; P9 d
an1bh1cylh464024938734.png (82.79 KB, 下載次數(shù): 6)
下載附件
保存到相冊(cè)
an1bh1cylh464024938734.png
2024-9-30 01:35 上傳
0 L9 V8 h# m1 q5 z6 Y | ! r: K* g" _8 V2 |! C" }' h$ b; \
hktsuthux0d64024938834.png (21.52 KB, 下載次數(shù): 8)
下載附件
保存到相冊(cè)
hktsuthux0d64024938834.png
2024-9-30 01:35 上傳
( p) D+ e z6 ^0 j( B
|
* ^9 p Y' h& t6 k+ Z. v& I+ l0 q$ J6 }8 U7 X9 X0 |
$ K5 R$ N$ D0 V. c+ `1 `
& |1 W( u7 a, y2 g9 W關(guān)于我們:
7 z, j& f) [: e* F0 S' B深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專(zhuān)注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開(kāi)發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶(hù)。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶(hù)提供前沿技術(shù)與服務(wù)。
4 F* l7 n& X; A' ?: u+ _; y( L0 h% W1 Y
http://www.latitudeda.com/0 t* T# t, t: A$ }) `. G
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|