電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 106|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | Meta新一代訓(xùn)練和推理加速器

[復(fù)制鏈接]

686

主題

686

帖子

5863

積分

四級(jí)會(huì)員

Rank: 4

積分
5863
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-10-6 08:00:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
引言
9 P0 h: C' N/ r; M: o隨著深度學(xué)習(xí)推薦模型(DLRMs)和大型語(yǔ)言模型(LLMs)在規(guī)模和復(fù)雜性上的快速增長(zhǎng),Meta公司開發(fā)了新一代Meta訓(xùn)練和推理加速器(MTIA),這是一種尖端解決方案,旨在提高各種AI模型和服務(wù)的性能、效率和開發(fā)人員生產(chǎn)力。
& H" t, s8 _" y/ {) A% x. Q' \; E- X/ b) N
. `! I. d  X* L, O  m$ }% B0 v) V. C
圖1:展示了推理模型復(fù)雜度(GFLOPS/樣本)和模型大小隨時(shí)間增長(zhǎng)的趨勢(shì)。# k6 c" p2 F( n  |' I
% B* M0 R, O# M+ X, c. W3 y
開發(fā)新一代MTIA的動(dòng)機(jī)源于幾個(gè)關(guān)鍵因素。首先,DLRM和GenAI模型在規(guī)模和計(jì)算需求上的爆炸性增長(zhǎng),創(chuàng)造了對(duì)更強(qiáng)大、更高效硬件的需求。其次,將GPU部署于這些工作負(fù)載中暴露出了有效性能、資源密集度和容量限制等方面的挑戰(zhàn)。為應(yīng)對(duì)這些挑戰(zhàn),Meta著手開發(fā)一種加速器,能夠顯著提高總體擁有成本(TCO)的性能比和每瓦性能比,同時(shí)高效處理Meta多項(xiàng)服務(wù)中的各種模型。2 W7 t1 L; s8 Y" B. c3 F" x' F1 ~* s

5 d2 {! ], M$ r+ z3 R& x新一代MTIA的主要特性# i; }# j) k0 V1 ]# q: d! b8 i/ t
1. PyTorch Eager模式支持:加速器在作業(yè)啟動(dòng)和替換時(shí)間方面表現(xiàn)出色,新硬件作業(yè)啟動(dòng)時(shí)間不到1微秒,完成作業(yè)替換時(shí)間不到0.5微秒。這一特性提高了系統(tǒng)的整體響應(yīng)性和吞吐量。% q8 w  t& F( s- e. N. c

* F( v6 X1 A1 V- P2. 整數(shù)動(dòng)態(tài)量化:基于硬件的張量量化提供了與FP32(32位浮點(diǎn))相當(dāng)?shù)木龋瑫r(shí)減少了內(nèi)存和計(jì)算需求。這種技術(shù)實(shí)現(xiàn)了超過99.95%的精度,與基準(zhǔn)FP32結(jié)果相比。0 X$ o3 H$ P6 m" P% W+ v( t
3 }" s* v1 P: a+ @
3. Gen-O-Gen性能:MTIA顯著提高了GEMM(通用矩陣乘法)運(yùn)算,在BF16精度下達(dá)到177 TFLOPS - 提升了3.5倍。還支持稀疏矩陣運(yùn)算,TFLOPS提高了2倍,并實(shí)現(xiàn)了ANS(非對(duì)稱數(shù)值系統(tǒng))權(quán)重解壓縮,提供50%的壓縮率和20%更好的內(nèi)存到計(jì)算張量傳輸性能。
% r! m3 h% H6 J/ G1 z
7 e+ K' x$ e7 t' M8 I. |" p0 J4. 表批嵌入(TBE)優(yōu)化:下載和預(yù)取嵌入索引的硬件優(yōu)化使運(yùn)行時(shí)間比上一代快2-3倍。3 n/ F% z$ f4 ~0 j8 X9 u, [

  M1 N  C' _9 S, D 2 K7 S7 P2 y: F- M/ D5 Q
圖2:展示了新一代MTIA的整體架構(gòu),包括處理元素、內(nèi)存子系統(tǒng)和接口。
, N. E% M4 j  N6 s3 G; G* v% P5 y8 {9 Z5 j0 i
新一代MTIA基于臺(tái)積電5nm技術(shù)構(gòu)建,運(yùn)行頻率為1.35 GHz。芯片包含23.5億個(gè)門和1.03億個(gè)觸發(fā)器,尺寸為25.6 x 16.4 mm(421 mm2)。封裝尺寸為50mm x 40mm,TDP為90瓦。加速器在GEMM性能方面表現(xiàn)出色:INT8為354 TOPS,F(xiàn)P16為177 TOPS,在稀疏模式下性能翻倍。配備128GB LPDDR5內(nèi)存,提供204.8 GB/s的帶寬。
$ q/ s# C  `9 s. M9 u
/ z' u2 w! P% \2 y架構(gòu)由幾個(gè)關(guān)鍵組件組成:
  • 控制子系統(tǒng)和主機(jī)接口
  • 通過自定義網(wǎng)格網(wǎng)絡(luò)連接的8x8處理元素網(wǎng)格
  • 分布在四側(cè)的256MB片上SRAM,提供2.7 TB/s帶寬
  • 四側(cè)的16通道LPDDR5內(nèi)存,支持高達(dá)128GB容量,帶寬為204.8 GB/s
    8 B2 h: v' S9 x" f8 k[/ol]
    ! F' f6 ~# q' ~# s% e主機(jī)接口使用Gen5 x8 PCIe,提供32 GB/s的帶寬。包括4MB PCIe描述符SRAM,用于快速描述符獲取?刂坪诵淖酉到y(tǒng)配備四核標(biāo)量RISC-V處理器,8MB L2緩存和4MB上下文SRAM,用于高效的工作負(fù)載分配。
    " b9 _7 o) s  G' w3 D- O
    7 c: j3 v4 ^1 J% N5 @9 ]
    9 J* \0 s3 M" I8 b圖3:說明了處理元素的組成部分,包括雙RISC-V核心和各種功能單元。9 T+ M5 R& E4 Z/ K8 R. ^
    # Y5 A! I; ~6 o  F
    處理元素(PE)是MTIA的核心。每個(gè)PE包含雙RISC-V核心 - 一個(gè)標(biāo)量核心和一個(gè)帶向量擴(kuò)展的核心。命令處理器(CP)協(xié)調(diào)PE內(nèi)功能塊的執(zhí)行。固定功能單元加速各種操作,包括矩陣乘法、非線性函數(shù)、數(shù)據(jù)移動(dòng)、動(dòng)態(tài)量化、權(quán)重解壓縮和急切模式處理。
    0 V1 S" l- g- l  N1 p* z3 Z5 T$ e0 t% O3 `, |4 h' @  X# p$ ^5 [$ M
    每個(gè)PE內(nèi)的點(diǎn)積引擎(DPE)提供2.77 TF/s(FP16)的性能,在稀疏模式下增加到5.54 TF/s。為匹配這一計(jì)算能力,MLU、RE和SE單元的數(shù)據(jù)路徑已被拓寬。每個(gè)PE還包括384KB本地內(nèi)存,以支持更大、更復(fù)雜的工作負(fù)載。% L5 k+ ]% Y  S$ {% \0 N3 m

    2 b0 y) ?- e' P, X7 G新一代MTIA的一個(gè)突出特點(diǎn)是整數(shù)動(dòng)態(tài)量化能力。這種基于硬件的解決方案實(shí)時(shí)調(diào)整量化參數(shù),在運(yùn)行時(shí)收集每批次的最小/最大值,并支持按行量化。結(jié)果是全連接算子的通道級(jí)對(duì)稱動(dòng)態(tài)量化,與FP32基準(zhǔn)結(jié)果相比,實(shí)現(xiàn)了超過99.95%的精度。
    & ]* t: I, Y5 ~& Q2 C7 R9 V" Z0 R
    為提高特定工作負(fù)載的性能,MTIA包含幾項(xiàng)優(yōu)化:
  • Eager模式增強(qiáng):多播寫入組允許控制核心向選定PE廣播Eager模式工作隊(duì)列描述符,將PE作業(yè)啟動(dòng)時(shí)間減少了80%以上。
  • 硬件解壓縮:專用解壓縮引擎緩解了PCIe和網(wǎng)絡(luò)擁塞,支持RFC1952(GUNZIP/GZIP)標(biāo)準(zhǔn),包括靜態(tài)和動(dòng)態(tài)Huffman編碼塊。四個(gè)解壓縮核心提供高達(dá)25 GB/s的解壓縮率。
  • PE權(quán)重解壓縮:使用非對(duì)稱數(shù)值系統(tǒng)(ANS)算法,MTIA實(shí)現(xiàn)了接近50%的壓縮率,改善了片上內(nèi)存占用,減少了PE到NoC的讀取帶寬。
  • 表批嵌入(TBE):此功能將來自單獨(dú)嵌入批處理操作的表合并為單個(gè)表,與上一代相比,運(yùn)行時(shí)間提高了2-3倍。4 \% Y* s5 }7 E" W4 {; q, Z" P; d$ R
    [/ol]
    + z; M1 ]- x' Y5 }9 b! y  v$ h$ a
    ; s$ b7 p+ m% X7 v
    / d, P, V  Z/ t9 m  J( J7 W3 E+ y圖4:顯示了加速器模塊的物理布局,包括內(nèi)存和PCIe接口規(guī)格。
    ; C7 h5 V- h' Q+ z% q
    6 i6 j# R9 U: k5 V新一代MTIA部署在PCIe CEM FHFL形態(tài)因子中,每個(gè)模塊包含兩個(gè)MTIA。每個(gè)模塊支持高達(dá)256GB的LPDDR5內(nèi)存,提供總計(jì)409.6 GB/s的內(nèi)存帶寬。板卡TDP為220W,使用64 GB/s Gen5 PCIe接口(2個(gè)Gen5 x8)。0 h1 v& m: X4 `  }: h! m) d

    . W3 U) e6 l3 ]/ ?2 z7 a/ e. W3 D在系統(tǒng)拓?fù)浞矫,單個(gè)機(jī)架包含72個(gè)MTIA ASIC,分布在三個(gè)機(jī)箱中,每個(gè)機(jī)箱容納12個(gè)模塊。這種配置自2024年上半年起已在數(shù)據(jù)中心部署,為Meta的AI工作負(fù)載提供了強(qiáng)大的計(jì)算能力。8 I6 u! x* q5 {5 i4 D& D0 _
    ' c# r# i% d- d4 {+ }
    新一代MTIA的性能顯示出持續(xù)改進(jìn),特別是對(duì)于高復(fù)雜度模型。雖然低復(fù)雜度模型立即受益于大型片上SRAM,但高復(fù)雜度模型需要更多優(yōu)化才能有效地在SRAM中分塊數(shù)據(jù)并實(shí)現(xiàn)更高的有效FLOPS。在4-6個(gè)月的時(shí)間內(nèi),團(tuán)隊(duì)為這些具有挑戰(zhàn)性的工作負(fù)載實(shí)現(xiàn)了超過2倍的性能提升。+ c. P) j0 j9 u; H

    . v. l: g. B! t& P$ P' Z新一代MTIA代表了AI加速器技術(shù)的進(jìn)展。通過應(yīng)對(duì)DLRM和GenAI模型日益增長(zhǎng)的需求,Meta創(chuàng)造了多功能且強(qiáng)大的解決方案推動(dòng)下一代AI應(yīng)用和服務(wù)。隨著模型復(fù)雜性的不斷增加,像MTIA這樣的創(chuàng)新將在維持AI生態(tài)系統(tǒng)的性能、效率和可擴(kuò)展性方面發(fā)揮關(guān)鍵作用。4 K* S' V) v4 B
    / Z6 [8 [2 |% g( s5 K* _: r

    * Y7 S* Y2 H: {& `% V6 v! Y  }% O參考文獻(xiàn)
    4 b7 ^) X1 B: }# r+ i% C" T" \[1] M. Maddury, P. Kansal and O. Wu, "Next Gen MTIA - Recommendation Inference Accelerator," Meta, 2024.
    - e5 [$ n, v  ?% T8 q$ B
    5 y3 a# w! V+ ^6 G- END -
    # p0 v* k" W& r1 u! d" o0 h3 M# f5 v! T- s
    軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。. P8 E% F. x6 O0 U: }1 N2 r
    點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)
    " Q: m! E/ O, x
    . g8 k3 M& H( C, }5 p9 i! v, k4 K歡迎轉(zhuǎn)載) z4 O6 O) I1 ?2 z+ w

    / s2 [% m7 ~: z$ C- P, R. Z轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!7 O2 H% j* g& N  X5 j
    + g% j& ^1 K' n7 _) M( J6 T8 Y3 f
    1 s$ r  Q$ ]! N' ~5 F# d0 F
    # r* G: i) }0 w
    * ?  ]6 F5 @' l: U  n

    9 r- B6 X! M7 t! ~關(guān)注我們2 A* D! m) c1 K+ ]7 w
    + A* K+ G6 p+ e  Q
    9 J' M1 Z* Y2 s4 P% s

    3 A+ C9 Y: j; t# @% @0 U& s
    1 k; m& k1 }3 W5 ~6 T( D' R

    5 q4 u  @' d2 O6 u
    ; }- h3 Y4 i& o  I( H4 H

    # n) S- W# d4 z1 _8 y
                         
    & @4 a( h+ L; S# T
    6 [' K4 w7 y; P+ n
    ' r! f6 u: S4 ]1 X
      D5 p  G& o+ K/ k: |1 w7 [
    關(guān)于我們:
    ) s/ U4 n$ c5 q: {) P1 J9 |深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
      Z# ^# i6 o( v. i9 W) [! {! V
    - W( z( T2 a* n, E6 }http://www.latitudeda.com/; K& E1 X2 V( D* A% Y8 U
    (點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 發(fā)表回復(fù)

    本版積分規(guī)則


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表