電子產業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 686|回復: 0
收起左側

Hot Chips 2024 | AMD Instinct MI300X新一代加速器推動AI和高性能計算

[復制鏈接]

686

主題

686

帖子

5863

積分

四級會員

Rank: 4

積分
5863
跳轉到指定樓層
樓主
發(fā)表于 2024-9-29 08:02:00 | 只看該作者 |只看大圖 回帖獎勵 |正序瀏覽 |閱讀模式
引言
' B' o5 a2 M8 Z# h本文旨在幫助讀者了解AMD Instinct MI300X加速器,這款加速器代表了人工智能(AI)和高性能計算(HPC)技術的進步[1]。我們將探討MI300X的架構、特性和性能,展示其如何滿足生成式AI和大型語言模型(LLMs)不斷增長的需求。
, g& F; B5 W% _$ [9 I
, p) x. W. \. ]9 |, uAMD Instinct MI300X簡介! P' D# m1 \2 ^# r( g* `7 `
AMD Instinct MI300X是AMD持續(xù)推進HPC和AI計算能力的成果。在其前代產品的基礎上,MI300X專注于統(tǒng)一內存、AI數(shù)據(jù)格式性能和節(jié)點內網(wǎng)絡通信的改進。  F/ [; Q. |7 Q0 v& P

5 \! C% |  P  k1 L, Y$ J
/ \' U: y  t3 O圖1:AMD Instinct加速器的演進歷程,展示了從MI100到MI300X的技術發(fā)展重點。( V( G, M! X, c- M. x
5 z, {+ T; W& H$ [, O: c- Y
架構概述& c; p  {3 @( t; X
MI300X的核心是AMD CDNA 3架構,采用多Chiplet設計,包含1530億個晶體管,使用臺積電5nm和6nm FinFET工藝制造。9 S; W( ]% a) G: i/ W( |

/ B% D( U  o9 _  V( l圖2:詳細展示了AMD Instinct MI300X多Chiplet加速器的結構,包括多個XCD(GPU Chiplet)、HBM3內存和互連設計。" r2 A* B; k6 s! ?/ z* k' t
# _# k4 |3 d3 h0 Z/ \. J
MI300X的主要特性包括:3 g$ n# F$ W' g0 w1 R7 w" Z" U! X: ]
  • 304個計算單元
  • 1,216個矩陣核心
  • 192GB HBM3內存,帶寬達5.2 TB/s
  • 第四代Infinity Fabric,帶寬高達896 GB/s
    8 s2 q8 h. F; E( s. ?4 v0 L* y" \
    % S6 J9 `& ^) C! M
    MI300X的架構針對AI工作負載進行了優(yōu)化,特別是在矩陣運算和低精度計算方面。- c' I  ?1 D; E$ ?6 p
    1 H4 W& {0 M# ^. @. [7 c+ C
    CDNA 3架構改進
    4 ^  _( R) B6 S# m* BCDNA 3架構相比前代產品有顯著提升:
    ' |  x* g$ w! r  Q1 T: O
  • 每時鐘周期每計算單元的低精度矩陣運算能力翻倍
  • 支持INT8、FP8、FP16和BF16格式的2:4結構化稀疏性
  • 新增TF32和FP8數(shù)值格式支持
  • 支持各種浮點和整數(shù)運算的并發(fā)執(zhí)行% C+ k& c1 s; B6 K+ l2 K* U
    * z% a1 _3 H6 Z, S
    ! i% @  k5 r& Q# {# n/ K; _# H
    ! s; R4 N" C5 P8 I$ z. w' V
    圖3:MI300X與MI250X計算能力的詳細對比,突顯各種數(shù)據(jù)格式的性能提升。
    6 ?' c0 }! G) Y' E( g% R' G, {1 R6 u( \& H
    ( R8 n! l& f5 X- v% a7 G
    內存系統(tǒng)
    # z$ b5 M  Q2 [: a" q; bMI300X的一個突出特點是其內存系統(tǒng):- `% L: h) k4 v& W; q
  • 全球首個8堆棧HBM3內存架構
  • 每個加速器配備192GB HBM3內存
  • 5.2 TB/s的內存帶寬) e* E) P. g) ?+ F
    / X! v( j2 S4 `% y
    這種大容量內存使MI300X能夠處理比競爭對手更大的AI模型。例如,單個MI300X平臺可以支持高達6800億參數(shù)的LLM推理任務。
    - u, A# x" {- v7 K
    0 F2 I9 y: B# K4 P# a) Q% V  u圖4:AMD Instinct MI300X與NVIDIA H100內存容量和帶寬的對比。7 O# M: p4 `; S8 Z
    * }8 K% f5 F5 X, y" `- J& L, D9 m
    緩存層級和Infinity Cache
    % i5 z# m. q) A# b3 b; F8 P$ P" dMI300X具有復雜的緩存層級結構:
    ' M! P3 X* h7 P7 m, ]
  • 每個計算單元32 KiB L1數(shù)據(jù)緩存
  • 每兩個計算單元共享64 KiB L1指令緩存
  • 每個XCD有4 MiB L2緩存
  • 256 MiB Infinity Cache
    + u/ L1 D9 h* a! ?
    5 C" t! B6 [& R( y2 X% `: A# U
    - H$ R) V9 `+ S6 G
    # X2 ^" R2 q& S) @' m% v
    圖5:MI300X的緩存和內存層級結構圖。
    - q) `  b2 z9 L2 g
    0 r! ?. B: }( K1 L) ~2 k" c6 VInfinity Cache是一個亮點特性,提供256 MB緩存,峰值帶寬達14.7 TB/s,在帶寬放大、功耗降低和延遲改善方面帶來顯著益處。6 K4 J; y; N! x* @9 ]# h% n7 r5 O
    & |& d6 G4 U( C3 [
    空間分區(qū)和虛擬化
    - ]& m1 Q1 o' ~, P; Q' N$ OMI300X支持靈活的空間分區(qū),允許將GPU分為多個分區(qū):* A5 W" W7 q( P
  • 可以分為與XCD數(shù)量相等的分區(qū)
  • 支持單根I/O虛擬化(SR-IOV),每個平臺最多64個虛擬功能(VF)
  • 支持動態(tài)重新分區(qū)以優(yōu)化工作負載! x0 W, K( G% x7 ]0 s$ D5 m* D
    ( o0 \. F; ]# @% ~. W5 o
      N5 `$ }# I, a
    7 q$ J7 a0 I8 S* z. ~
    圖6:展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置,突顯其在不同工作負載和虛擬化場景下的靈活性。
    8 p0 D8 v2 T0 V/ Z4 o0 {. f# `9 G& O  f: P4 D
    AMD Instinct MI300X平臺9 d4 E* i# f5 t9 g' ^' |
    MI300X設計為在平臺配置中工作,通常包括:, i. j5 s% q* P: Z& ^
  • 8個AMD Instinct MI300X加速器
  • BF16/FP16性能約為10.4 PetaFLOPS
  • 總計1.5 TB HBM3內存
  • Infinity Fabric帶寬約為896 GB/s6 ~, f% ~6 ^1 z0 E) |5 ^

    3 Q- n) t$ v2 X: M% T( e
    2 L0 M8 |9 \! C. ^ 0 Q# Z5 `7 Y# f: g8 z- }7 A' _
    圖7:AMD Instinct MI300X平臺的概覽,展示其作為領先生成式AI平臺的關鍵特性。  u, g% E5 o8 H) x) }# n+ f( f4 K

    * r* w& v  M  p2 Z8 v( WInfinity平臺和生態(tài)系統(tǒng)2 g3 x2 I$ n* l
    MI300X Infinity平臺通過AMD Infinity Fabric為8個OAM(開放加速器模塊)提供直接連接:9 l* q+ ^$ s' A  h) u6 ^
  • 七個雙向鏈路,每個帶寬為128 GB/s
  • 每個OAM配備PCIe Gen 5 x16,用于服務器連接和I/O
  • 192GB HBM用于RDMA(遠程直接內存訪問). E, I1 w3 b. u2 ?$ l0 Z
    . R$ a' D& E' }& f  f$ K

    * c( n+ I5 m: V# [5 U8 T6 V * k+ v2 [' j3 C% e
    圖8:展示了MI300X Infinity平臺的結構,說明了多個MI300X加速器之間的互連以及與主機服務器的連接方式。
    / O2 w8 F' {1 u% t* V
    ) D# \! [. `+ N3 t8 x/ G% f. v該平臺還符合行業(yè)標準并提供高級特性:, X) s7 }* T: b- `
  • 符合UBB 2.0標準,實現(xiàn)快速部署和無縫數(shù)據(jù)中心集成
  • 增強的安全特性,包括SPDM認證
  • 全面的RAS(可靠性、可用性、可服務性)特性
  • 先進的遙測和固件管理功能
    4 j2 I9 E2 D" F

    . D- }0 E5 r0 w, \- P軟件生態(tài)系統(tǒng)
    , _! i0 {( T, Z" Q4 b! ]7 K1 I8 rAMD為支持MI300X開發(fā)了軟件生態(tài)系統(tǒng):+ e  L6 W! J. e+ z6 p6 f9 s( Y
  • ROCm(Radeon開放計算)平臺用于GPU計算
  • 針對AI和HPC工作負載優(yōu)化的庫
  • 支持流行的AI框架,如PyTorch和TensorFlow
  • 擴展的開發(fā)者工具和運行時環(huán)境
    + E' ]3 K' i, I- D6 V. c
      q. r" ~, y; Z( x% {- s1 y
    這個軟件棧確保開發(fā)者能在各種應用中高效利用MI300X的能力。5 B. _- Z6 c8 l$ g  k2 A

    & e. T( X1 e* _8 OAI工作負載性能: ?2 X$ h$ h4 ]
    MI300X在各種AI任務中展現(xiàn)了令人印象深刻的性能:
    # a, Q: c3 ]2 T+ D9 Z
  • Meta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍
  • Mistral-7B模型的吞吐量高出1.2倍
  • 在模型微調任務中表現(xiàn)出色
    8 S' |6 {" [: K8 K
    / B% u7 ]* r9 k3 c5 U! \4 I" K
    , o7 N% f% \; L/ F# ^, y) M0 Q

    1 Z+ p6 v" A# S* |圖9:AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對比。
    5 V3 ?7 }% Z# w( g1 \. M& O: U. a" C/ W  p# x, S9 e5 a
    結論9 O4 ?, M* k/ v+ @8 f( {
    AMD Instinct MI300X代表了AI和HPC工作負載加速器技術的進步。其創(chuàng)新架構、大容量內存和強大的計算能力使其成為高端AI加速器市場的有力競爭者。隨著對更大、更復雜AI模型需求的不斷增長,MI300X高效處理這些工作負載的能力使其成為推動AI研究和部署的理想選擇。! t( @# t$ g* |" b: M! {
    9 L# I% A* Q$ ]
    憑借靈活的分區(qū)、先進的內存系統(tǒng)和強大的軟件生態(tài)系統(tǒng),MI300X完全有能力應對從訓練大型語言模型到加速推理任務的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴展其AI產品線,MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計算領域推動創(chuàng)新的承諾。
    ! }/ _! i3 M! Q5 F* s
    - E* T$ d3 H) Q1 F, l' Y8 v/ {5 c$ P參考文獻
    6 E! P9 A) P' h. V[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.
    8 R/ F0 J+ Q( M& l  T" _
    + j, G1 F  j  G- END -
    ' x& w. _  m( t* u7 z5 q/ W* |; ^5 T; ]
    軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。
    / |( x  X% ]4 O' k% H9 D* I點擊左下角"閱讀原文"馬上申請
    ' w9 N" l. H0 }5 C* Z0 v
    0 o1 \" i9 |8 ^/ l8 Y9 w歡迎轉載
    $ \( a2 n  G1 \; z1 i0 S( ^$ j4 R  a) [2 |9 ?% ~, F
    轉載請注明出處,請勿修改內容和刪除作者信息!
    * ~) w. Y1 Z; d. l  v
    1 N/ i( ]; c- Q$ U3 c( |0 H
    ( L; h9 Q4 w/ N  ]

    7 ~# _4 |+ ^8 `! @
    2 ?2 \& N- x* c* w4 i" {0 u9 s$ y! H% W
    關注我們
    # v7 |8 E; x! I$ b: c( Q; M# Q9 @- P( R0 L, \8 n

    2 `5 X4 ]  ?$ u4 G$ m5 V
    2 S& c0 Z7 U# C/ D* |/ y
    6 Y6 x( G) S7 W6 m! W

    5 }2 s5 k0 J+ C7 l
    " h1 e: D! M" g' g/ r0 t; i
    # x7 M: s1 ?: y& \  x- {
                         
    # C; ], G. O, c" J8 _0 H, A! M  m2 M( v
    + F) I" r! Q/ k

    " C9 a; N2 T7 h0 y關于我們:. l1 g7 i" H8 P
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件,提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務,廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產業(yè)鏈發(fā)展,致力于為客戶提供前沿技術與服務。' E  ?" S. r( E5 `' s2 e2 I. C

    ) v9 R# d# D$ q( Fhttp://www.latitudeda.com/
    - x+ k5 q8 p8 O  E- P- O1 F; g& T(點擊上方名片關注我們,發(fā)現(xiàn)更多精彩內容)
  • 回復

    使用道具 舉報

    發(fā)表回復

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則


    聯(lián)系客服 關注微信 下載APP 返回頂部 返回列表