電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 683|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | AMD Instinct MI300X新一代加速器推動AI和高性能計算

[復(fù)制鏈接]

686

主題

686

帖子

5863

積分

四級會員

Rank: 4

積分
5863
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-9-29 08:02:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言
* @& P  b1 Y0 i. ^1 y" A本文旨在幫助讀者了解AMD Instinct MI300X加速器,這款加速器代表了人工智能(AI)和高性能計算(HPC)技術(shù)的進(jìn)步[1]。我們將探討MI300X的架構(gòu)、特性和性能,展示其如何滿足生成式AI和大型語言模型(LLMs)不斷增長的需求。
( @' _( m8 f: A" I% P0 q1 [% j- U8 x8 [) M1 }
AMD Instinct MI300X簡介
3 `2 `9 B+ p* i7 {) VAMD Instinct MI300X是AMD持續(xù)推進(jìn)HPC和AI計算能力的成果。在其前代產(chǎn)品的基礎(chǔ)上,MI300X專注于統(tǒng)一內(nèi)存、AI數(shù)據(jù)格式性能和節(jié)點(diǎn)內(nèi)網(wǎng)絡(luò)通信的改進(jìn)。
8 F2 q) I( ^5 q! `9 M# p5 T8 a6 c" [0 b
; U$ A1 O$ N; A; P" B. p2 l
圖1:AMD Instinct加速器的演進(jìn)歷程,展示了從MI100到MI300X的技術(shù)發(fā)展重點(diǎn)。
' o! c7 t; S+ L/ u4 N! u5 W. P* p1 a2 {" M1 M
架構(gòu)概述9 Q' ^0 K  \# ?: z
MI300X的核心是AMD CDNA 3架構(gòu),采用多Chiplet設(shè)計,包含1530億個晶體管,使用臺積電5nm和6nm FinFET工藝制造。
; B  }; f% f$ e: N& P; }5 z
0 V. J( C0 h% D- I1 ?& B& v5 o4 o圖2:詳細(xì)展示了AMD Instinct MI300X多Chiplet加速器的結(jié)構(gòu),包括多個XCD(GPU Chiplet)、HBM3內(nèi)存和互連設(shè)計。% d2 X1 R. }' v0 j

8 P" t: W4 u  {3 uMI300X的主要特性包括:
4 A1 ?$ Q' `! c( r( Y* p
  • 304個計算單元
  • 1,216個矩陣核心
  • 192GB HBM3內(nèi)存,帶寬達(dá)5.2 TB/s
  • 第四代Infinity Fabric,帶寬高達(dá)896 GB/s+ a- l. ?, I% u5 D( \0 K

    8 Q8 C9 D9 U' u/ E8 k$ ?: ~4 FMI300X的架構(gòu)針對AI工作負(fù)載進(jìn)行了優(yōu)化,特別是在矩陣運(yùn)算和低精度計算方面。
    # N: b# B- @- x7 ~  x1 Y$ H* b/ ~  J0 i  R( \) j! y7 B* ^& y
    CDNA 3架構(gòu)改進(jìn)
    1 Y: K) x+ x" Y1 Q' W5 o- S8 V# z* bCDNA 3架構(gòu)相比前代產(chǎn)品有顯著提升:/ |9 p6 }0 k9 {, o9 X) e( d9 y
  • 每時鐘周期每計算單元的低精度矩陣運(yùn)算能力翻倍
  • 支持INT8、FP8、FP16和BF16格式的2:4結(jié)構(gòu)化稀疏性
  • 新增TF32和FP8數(shù)值格式支持
  • 支持各種浮點(diǎn)和整數(shù)運(yùn)算的并發(fā)執(zhí)行# O' ]6 K! B5 j4 g2 l

    7 O! P7 W  r! o  \7 F1 T& V# E  C% E2 {
    3 U' b- ]) {2 q; p
    圖3:MI300X與MI250X計算能力的詳細(xì)對比,突顯各種數(shù)據(jù)格式的性能提升。! I. L7 j' ]1 D! i" A2 d
    % P' `/ |) `6 h! y1 ~4 j

    , q8 c# `# U( \+ O內(nèi)存系統(tǒng)
    + l% G1 K# F- D, O' }5 k, kMI300X的一個突出特點(diǎn)是其內(nèi)存系統(tǒng):5 _$ W" n% _% k( T% i: ?5 Y* N
  • 全球首個8堆棧HBM3內(nèi)存架構(gòu)
  • 每個加速器配備192GB HBM3內(nèi)存
  • 5.2 TB/s的內(nèi)存帶寬
    1 a" n  g% w' n) L

    - P0 r3 C/ y; D1 E這種大容量內(nèi)存使MI300X能夠處理比競爭對手更大的AI模型。例如,單個MI300X平臺可以支持高達(dá)6800億參數(shù)的LLM推理任務(wù)。
    " m! _" V* ]4 {- K' r1 \. t
    3 T4 G, R3 l( W7 ]) y% a圖4:AMD Instinct MI300X與NVIDIA H100內(nèi)存容量和帶寬的對比。
    + s3 i. l" R0 Y0 b+ w! P: _& w2 ]7 N0 g: Y: l9 Y1 Y, P
    緩存層級和Infinity Cache
    ! E/ o3 F9 V! S2 uMI300X具有復(fù)雜的緩存層級結(jié)構(gòu):
    7 ?  g4 l: M. l
  • 每個計算單元32 KiB L1數(shù)據(jù)緩存
  • 每兩個計算單元共享64 KiB L1指令緩存
  • 每個XCD有4 MiB L2緩存
  • 256 MiB Infinity Cache
    ( u( E( w' P+ y# n2 y
    4 U# `& r2 T7 i- A5 L! B6 M0 Y0 c- Z) r
    $ g5 L% @2 d9 k& E$ v

    ! m4 N5 K! J  q4 j* q1 Z: i圖5:MI300X的緩存和內(nèi)存層級結(jié)構(gòu)圖。1 `1 I; c0 g) n; K- X% K; T% @/ |
    6 O5 I& e- @6 P
    Infinity Cache是一個亮點(diǎn)特性,提供256 MB緩存,峰值帶寬達(dá)14.7 TB/s,在帶寬放大、功耗降低和延遲改善方面帶來顯著益處。5 M( B, Y4 {6 R/ D( }# k( O/ p- d
    ! g5 @; e8 S5 U8 [
    空間分區(qū)和虛擬化
      [( g$ l9 p- g, O$ o4 NMI300X支持靈活的空間分區(qū),允許將GPU分為多個分區(qū):: n. c- ~( t+ D( u- j) `
  • 可以分為與XCD數(shù)量相等的分區(qū)
  • 支持單根I/O虛擬化(SR-IOV),每個平臺最多64個虛擬功能(VF)
  • 支持動態(tài)重新分區(qū)以優(yōu)化工作負(fù)載
    1 O, z- b. J1 w  C' ]

    1 j2 p* I4 i5 g) d8 U. W# o; [7 L7 H2 Z6 h  I  o0 H

    $ b! z' ~, W1 w2 Q; i; X. {圖6:展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置,突顯其在不同工作負(fù)載和虛擬化場景下的靈活性。0 e; M' G+ P: \! E" Q- [

    7 W; E" I6 p$ rAMD Instinct MI300X平臺' h" Q. ?/ J; `/ {; U( ]' u1 j
    MI300X設(shè)計為在平臺配置中工作,通常包括:
    / [- m+ h& b( m' ~1 u9 k
  • 8個AMD Instinct MI300X加速器
  • BF16/FP16性能約為10.4 PetaFLOPS
  • 總計1.5 TB HBM3內(nèi)存
  • Infinity Fabric帶寬約為896 GB/s0 l8 f1 s. d1 A" A& `' a

    ; a$ P' `/ L# k. G4 N1 u0 V
    # ^2 p) q) l+ o/ b* H) }! ~
    * ]: v0 p. w/ t圖7:AMD Instinct MI300X平臺的概覽,展示其作為領(lǐng)先生成式AI平臺的關(guān)鍵特性。$ V2 Q  m2 W1 M) ~& j! Q
    ( n6 k, {9 m; M% n& E& C7 }- X
    Infinity平臺和生態(tài)系統(tǒng)
    2 f, x2 Y  {# Z. UMI300X Infinity平臺通過AMD Infinity Fabric為8個OAM(開放加速器模塊)提供直接連接:
    5 w/ W& f$ X9 |! N. p4 z2 X
  • 七個雙向鏈路,每個帶寬為128 GB/s
  • 每個OAM配備PCIe Gen 5 x16,用于服務(wù)器連接和I/O
  • 192GB HBM用于RDMA(遠(yuǎn)程直接內(nèi)存訪問)0 \/ C& d6 t- L) d

    % n, N- w$ j6 i+ _5 Y7 W! o# X
    0 f1 ]' B# g8 i$ f3 r
    + C) }; h7 {# g& S4 o  D2 i  d" P% \圖8:展示了MI300X Infinity平臺的結(jié)構(gòu),說明了多個MI300X加速器之間的互連以及與主機(jī)服務(wù)器的連接方式。1 e+ B% X6 u9 m  F) F' E

    : H# r! x2 W+ W# {0 O0 }該平臺還符合行業(yè)標(biāo)準(zhǔn)并提供高級特性:
    - _( H0 R9 }$ ^' a: q# g6 n
  • 符合UBB 2.0標(biāo)準(zhǔn),實現(xiàn)快速部署和無縫數(shù)據(jù)中心集成
  • 增強(qiáng)的安全特性,包括SPDM認(rèn)證
  • 全面的RAS(可靠性、可用性、可服務(wù)性)特性
  • 先進(jìn)的遙測和固件管理功能0 j# n9 z& j1 w' h& x  Q0 i
    1 A8 F7 y5 v3 I. s5 I5 L
    軟件生態(tài)系統(tǒng)
    ' I4 G, [$ b! X2 x1 EAMD為支持MI300X開發(fā)了軟件生態(tài)系統(tǒng):
    4 Y! y. g2 s; k) E# |0 n1 i
  • ROCm(Radeon開放計算)平臺用于GPU計算
  • 針對AI和HPC工作負(fù)載優(yōu)化的庫
  • 支持流行的AI框架,如PyTorch和TensorFlow
  • 擴(kuò)展的開發(fā)者工具和運(yùn)行時環(huán)境
    0 p6 S3 U: b2 j2 v" x
    " F" e: U4 [2 T, h( m) t0 r4 X$ v* ~
    這個軟件棧確保開發(fā)者能在各種應(yīng)用中高效利用MI300X的能力。* A. z! C: o3 B/ s. q

    / p2 H# E- T; o9 e; @0 jAI工作負(fù)載性能( Y5 y& z1 S) i
    MI300X在各種AI任務(wù)中展現(xiàn)了令人印象深刻的性能:
    4 k6 C& B7 C4 Z3 U) `
  • Meta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍
  • Mistral-7B模型的吞吐量高出1.2倍
  • 在模型微調(diào)任務(wù)中表現(xiàn)出色
    5 T9 f1 I8 g9 y, D% h6 f- }
    7 d9 C0 m) }1 n! z* R( S* V- _

    # u' _/ x& R7 @, w0 u5 d# v% k: r
    . A! D8 x. S- q- j0 q8 a3 _圖9:AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對比。+ t3 r" W) w* G1 F0 U4 k
    ( }3 l: ]) [4 }+ `+ j, w
    結(jié)論0 _8 f) B7 h3 g# R
    AMD Instinct MI300X代表了AI和HPC工作負(fù)載加速器技術(shù)的進(jìn)步。其創(chuàng)新架構(gòu)、大容量內(nèi)存和強(qiáng)大的計算能力使其成為高端AI加速器市場的有力競爭者。隨著對更大、更復(fù)雜AI模型需求的不斷增長,MI300X高效處理這些工作負(fù)載的能力使其成為推動AI研究和部署的理想選擇。
    ! h% q% j  ?# s# T) u: ]! G
    ( R6 H+ h. F( y9 j& d+ `憑借靈活的分區(qū)、先進(jìn)的內(nèi)存系統(tǒng)和強(qiáng)大的軟件生態(tài)系統(tǒng),MI300X完全有能力應(yīng)對從訓(xùn)練大型語言模型到加速推理任務(wù)的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴(kuò)展其AI產(chǎn)品線,MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計算領(lǐng)域推動創(chuàng)新的承諾。
    " W+ x( k* m/ |' {) W/ D* c  W# Q1 p8 @, I1 t- G5 R3 |% v( q
    參考文獻(xiàn)
    ) D- S5 C/ j$ P5 r3 ^7 F2 V[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.  B- g* @% O; ]% D5 i' s% u: @. b
    8 r2 J) X- l0 o6 l8 w' d
    - END -
    + D" E2 N/ t: d* e. G- N$ g
    6 O' @0 t0 a: [: k5 r# W軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。: [7 a( N1 R: A+ J- {
    點(diǎn)擊左下角"閱讀原文"馬上申請
    9 u" R% |6 @" W' \! p
    ) K4 I+ n  x% I  }# w4 D& c2 A! S' ]歡迎轉(zhuǎn)載
    - {+ Z& `& d* a9 D& E7 Y5 F
    % j5 S% Z- C8 y4 T! d1 z  y. M( q( l轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
    ; n& f/ f8 e* _, ^
    ' @$ X5 r8 v) S0 {; W  f# b% [. ^0 Y
    4 `+ y' S. i& s# V7 J8 b3 g

    + K9 A8 e9 Q& N: R1 Z& @4 N/ s; h% _
    關(guān)注我們* A* ^1 p+ T5 ^) Y" ~
    * v- G# H- }$ f, D8 k9 y3 P

    % Y" N( I9 t8 I' k* E) f7 H% x
    ( e( Z! Y7 ?$ n9 X" {1 D
    1 ~4 u$ ^7 G1 e+ c

    8 O: Y7 Q) M' ?' ?  P

    % |2 a1 D3 ~$ }* b# T0 y4 K6 ]8 C % M( w& [9 _; W2 H- w: K% d
                         
    7 x% m! h9 c* v
    ) h; w" f2 `7 _/ c+ [

    3 I& V9 g6 f# L. i* V0 h) `  s+ W% A: y( l* b2 {; a6 R
    關(guān)于我們:' I7 {, K# G) D& |1 O4 T% K3 J! X
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。% g# T# c4 m5 k" A4 i: e+ V
    7 V! W5 t/ P4 X8 o  O; i" P* W6 Y
    http://www.latitudeda.com/6 F( \% T" w( i8 f
    (點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 回復(fù)

    使用道具 舉報

    發(fā)表回復(fù)

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表