Hot Chips 2024 | Meta新一代訓(xùn)練和推理加速器

逍遙設(shè)計(jì)自動(dòng)化 · 發(fā)表于 2024-10-6 08:00:00

引言
隨著深度學(xué)習(xí)推薦模型（DLRMs）和大型語(yǔ)言模型（LLMs）在規(guī)模和復(fù)雜性上的快速增長(zhǎng)，Meta公司開發(fā)了新一代Meta訓(xùn)練和推理加速器（MTIA），這是一種尖端解決方案，旨在提高各種AI模型和服務(wù)的性能、效率和開發(fā)人員生產(chǎn)力。

圖1：展示了推理模型復(fù)雜度（GFLOPS/樣本）和模型大小隨時(shí)間增長(zhǎng)的趨勢(shì)。

開發(fā)新一代MTIA的動(dòng)機(jī)源于幾個(gè)關(guān)鍵因素。首先，DLRM和GenAI模型在規(guī)模和計(jì)算需求上的爆炸性增長(zhǎng)，創(chuàng)造了對(duì)更強(qiáng)大、更高效硬件的需求。其次，將GPU部署于這些工作負(fù)載中暴露出了有效性能、資源密集度和容量限制等方面的挑戰(zhàn)。為應(yīng)對(duì)這些挑戰(zhàn)，Meta著手開發(fā)一種加速器，能夠顯著提高總體擁有成本（TCO）的性能比和每瓦性能比，同時(shí)高效處理Meta多項(xiàng)服務(wù)中的各種模型。

新一代MTIA的主要特性
1. PyTorch Eager模式支持：加速器在作業(yè)啟動(dòng)和替換時(shí)間方面表現(xiàn)出色，新硬件作業(yè)啟動(dòng)時(shí)間不到1微秒，完成作業(yè)替換時(shí)間不到0.5微秒。這一特性提高了系統(tǒng)的整體響應(yīng)性和吞吐量。

2. 整數(shù)動(dòng)態(tài)量化：基于硬件的張量量化提供了與FP32（32位浮點(diǎn)）相當(dāng)?shù)木龋瑫r(shí)減少了內(nèi)存和計(jì)算需求。這種技術(shù)實(shí)現(xiàn)了超過99.95%的精度，與基準(zhǔn)FP32結(jié)果相比。

3. Gen-O-Gen性能：MTIA顯著提高了GEMM（通用矩陣乘法）運(yùn)算，在BF16精度下達(dá)到177 TFLOPS - 提升了3.5倍。還支持稀疏矩陣運(yùn)算，TFLOPS提高了2倍，并實(shí)現(xiàn)了ANS（非對(duì)稱數(shù)值系統(tǒng)）權(quán)重解壓縮，提供50%的壓縮率和20%更好的內(nèi)存到計(jì)算張量傳輸性能。

4. 表批嵌入（TBE）優(yōu)化：下載和預(yù)取嵌入索引的硬件優(yōu)化使運(yùn)行時(shí)間比上一代快2-3倍。

圖2：展示了新一代MTIA的整體架構(gòu)，包括處理元素、內(nèi)存子系統(tǒng)和接口。

新一代MTIA基于臺(tái)積電5nm技術(shù)構(gòu)建，運(yùn)行頻率為1.35 GHz。芯片包含23.5億個(gè)門和1.03億個(gè)觸發(fā)器，尺寸為25.6 x 16.4 mm（421 mm2）。封裝尺寸為50mm x 40mm，TDP為90瓦。加速器在GEMM性能方面表現(xiàn)出色：INT8為354 TOPS，F(xiàn)P16為177 TOPS，在稀疏模式下性能翻倍。配備128GB LPDDR5內(nèi)存，提供204.8 GB/s的帶寬。

架構(gòu)由幾個(gè)關(guān)鍵組件組成：

控制子系統(tǒng)和主機(jī)接口

通過自定義網(wǎng)格網(wǎng)絡(luò)連接的8x8處理元素網(wǎng)格

分布在四側(cè)的256MB片上SRAM，提供2.7 TB/s帶寬

四側(cè)的16通道LPDDR5內(nèi)存，支持高達(dá)128GB容量，帶寬為204.8 GB/s
[/ol]
主機(jī)接口使用Gen5 x8 PCIe，提供32 GB/s的帶寬。包括4MB PCIe描述符SRAM，用于快速描述符獲取�？刂坪诵淖酉到y(tǒng)配備四核標(biāo)量RISC-V處理器，8MB L2緩存和4MB上下文SRAM，用于高效的工作負(fù)載分配。

圖3：說明了處理元素的組成部分，包括雙RISC-V核心和各種功能單元。

處理元素（PE）是MTIA的核心。每個(gè)PE包含雙RISC-V核心 - 一個(gè)標(biāo)量核心和一個(gè)帶向量擴(kuò)展的核心。命令處理器（CP）協(xié)調(diào)PE內(nèi)功能塊的執(zhí)行。固定功能單元加速各種操作，包括矩陣乘法、非線性函數(shù)、數(shù)據(jù)移動(dòng)、動(dòng)態(tài)量化、權(quán)重解壓縮和急切模式處理。

每個(gè)PE內(nèi)的點(diǎn)積引擎（DPE）提供2.77 TF/s（FP16）的性能，在稀疏模式下增加到5.54 TF/s。為匹配這一計(jì)算能力，MLU、RE和SE單元的數(shù)據(jù)路徑已被拓寬。每個(gè)PE還包括384KB本地內(nèi)存，以支持更大、更復(fù)雜的工作負(fù)載。

新一代MTIA的一個(gè)突出特點(diǎn)是整數(shù)動(dòng)態(tài)量化能力。這種基于硬件的解決方案實(shí)時(shí)調(diào)整量化參數(shù)，在運(yùn)行時(shí)收集每批次的最小/最大值，并支持按行量化。結(jié)果是全連接算子的通道級(jí)對(duì)稱動(dòng)態(tài)量化，與FP32基準(zhǔn)結(jié)果相比，實(shí)現(xiàn)了超過99.95%的精度。

為提高特定工作負(fù)載的性能，MTIA包含幾項(xiàng)優(yōu)化：

Eager模式增強(qiáng)：多播寫入組允許控制核心向選定PE廣播Eager模式工作隊(duì)列描述符，將PE作業(yè)啟動(dòng)時(shí)間減少了80%以上。

硬件解壓縮：專用解壓縮引擎緩解了PCIe和網(wǎng)絡(luò)擁塞，支持RFC1952（GUNZIP/GZIP）標(biāo)準(zhǔn)，包括靜態(tài)和動(dòng)態(tài)Huffman編碼塊。四個(gè)解壓縮核心提供高達(dá)25 GB/s的解壓縮率。

PE權(quán)重解壓縮：使用非對(duì)稱數(shù)值系統(tǒng)（ANS）算法，MTIA實(shí)現(xiàn)了接近50%的壓縮率，改善了片上內(nèi)存占用，減少了PE到NoC的讀取帶寬。

表批嵌入（TBE）：此功能將來自單獨(dú)嵌入批處理操作的表合并為單個(gè)表，與上一代相比，運(yùn)行時(shí)間提高了2-3倍。
[/ol]

圖4：顯示了加速器模塊的物理布局，包括內(nèi)存和PCIe接口規(guī)格。

新一代MTIA部署在PCIe CEM FHFL形態(tài)因子中，每個(gè)模塊包含兩個(gè)MTIA。每個(gè)模塊支持高達(dá)256GB的LPDDR5內(nèi)存，提供總計(jì)409.6 GB/s的內(nèi)存帶寬。板卡TDP為220W，使用64 GB/s Gen5 PCIe接口（2個(gè)Gen5 x8）。

在系統(tǒng)拓?fù)浞矫�，單個(gè)機(jī)架包含72個(gè)MTIA ASIC，分布在三個(gè)機(jī)箱中，每個(gè)機(jī)箱容納12個(gè)模塊。這種配置自2024年上半年起已在數(shù)據(jù)中心部署，為Meta的AI工作負(fù)載提供了強(qiáng)大的計(jì)算能力。

新一代MTIA的性能顯示出持續(xù)改進(jìn)，特別是對(duì)于高復(fù)雜度模型。雖然低復(fù)雜度模型立即受益于大型片上SRAM，但高復(fù)雜度模型需要更多優(yōu)化才能有效地在SRAM中分塊數(shù)據(jù)并實(shí)現(xiàn)更高的有效FLOPS。在4-6個(gè)月的時(shí)間內(nèi)，團(tuán)隊(duì)為這些具有挑戰(zhàn)性的工作負(fù)載實(shí)現(xiàn)了超過2倍的性能提升。

新一代MTIA代表了AI加速器技術(shù)的進(jìn)展。通過應(yīng)對(duì)DLRM和GenAI模型日益增長(zhǎng)的需求，Meta創(chuàng)造了多功能且強(qiáng)大的解決方案推動(dòng)下一代AI應(yīng)用和服務(wù)。隨著模型復(fù)雜性的不斷增加，像MTIA這樣的創(chuàng)新將在維持AI生態(tài)系統(tǒng)的性能、效率和可擴(kuò)展性方面發(fā)揮關(guān)鍵作用。
/ Z6 [8 [2 |% g( s5 K* _: r

參考文獻(xiàn)
[1] M. Maddury, P. Kansal and O. Wu, "Next Gen MTIA - Recommendation Inference Accelerator," Meta, 2024.

- END -

軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用，PIC Studio都可提升您的工作效能。
點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)

歡迎轉(zhuǎn)載

轉(zhuǎn)載請(qǐng)注明出處，請(qǐng)勿修改內(nèi)容和刪除作者信息！

1 s$ r Q$ ]! N' ~5 F# d0 F

關(guān)注我們

6 [' K4 w7 y; P+ n

關(guān)于我們：
深圳逍遙科技有限公司（Latitude Design Automation Inc.）是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化（EDA）的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件，提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio，分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù)，廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作，推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展，致力于為客戶提供前沿技術(shù)與服務(wù)。

http://www.latitudeda.com/
（點(diǎn)擊上方名片關(guān)注我們，發(fā)現(xiàn)更多精彩內(nèi)容）

Hot Chips 2024 | Meta新一代訓(xùn)練和推理加速器

發(fā)表回復(fù)

精選推薦