繁中

Meta發布了下一代訓練和推理加速器(MTIA)的詳細信息

與上一代相比,這款MTIA晶片在計算和內存帶寬方面有顯著改進,旨在有效地服務於提供高質量推薦的排名和推薦模型。
新的MTIA設計採用台積電5納米工藝,具有更高的頻率、更大的門數和浮點操作數以及更大的封裝尺寸。
它還提供了更高的GEMM和Sim頂點操作速度,以及更大的本地和片上存儲器容量和帶寬。
此外,Meta還開發了一個可容納多達72個加速器的大型機架系統,以及一個與PyTorch 2.0完全集成的新軟體棧,以支持高效的模型和內核代碼生成。
這些優化使新一代MTIA的性能比第一代晶片提高了三倍,模型服務吞吐量提高了六倍,每瓦性能提高了1.5倍。
Meta正在數據中心部署該晶片以支持其人工智慧工作負載,展示了其在提供性能和效率方面的優勢,尤其是在Meta特定工作負載方面。

推出下一代元訓練和推理加速器(MTIA),這是我們定製晶片系列的下一代,專為Meta的人工智慧工作負載設計。

這個推理加速器是我們更廣泛的全棧開發計劃的一部分,用於定製特定領域晶片,可解決我們獨特的工作負載和系統問題。這個新版本的MTIA將我們之前的解決方案的計算和內存帶寬增加了一倍多,同時與工作負載保持密切聯繫。它旨在有效地服務於排名和推薦模型,為用戶提供高質量的推薦。

該晶片的架構從根本上專注於為服務排名和推薦模型提供計算、內存帶寬和內存容量的適當平衡。按理說,即使我們的批量規模相對較低,我們也需要能夠提供相對較高的利用率。通過專注於提供相對於典型圖形處理器的大靜態存儲器容量,我們可以以有限的批量大小提供高利用率,並在遇到大量潛在並發工作時提供足夠的計算。

加速器由8x 8處理元件(PE)網格組成。這些PE顯著提高了密集計算性能(比MTIA v1提高3.5倍)和稀疏計算性能(提高7倍)。這部分是由於與稀疏計算管道相關的架構改進。這還源於我們為PE網格提供動力的方式:我們將本地PE存儲的大小增加了兩倍,片內靜態存儲器增加了一倍,帶寬增加了3.5倍,並將LPDDR 5的容量增加了一倍。

新的MTIA設計還具有改進的片上網絡(NoC)架構,該架構將帶寬翻倍,並允許我們以低延遲在不同PE之間進行協調。PE中的這些和其他新功能構成了關鍵技術,這些技術對於我們將MTIA擴展到更廣泛、更具挑戰性的工作負載的長期路線圖至關重要。

為了支持下一代晶片,我們開發了一種大型機架安裝系統,可容納多達72個加速器。它由三個底盤組成,每個底盤包含12塊板,每個板包含兩個加速器。我們專門設計了該系統,以便我們可以將晶片的時鐘頻率設置為1.35GHz(高於800 MHz),並在90瓦的功率下運行,而第一代設計的功率為25瓦。我們的設計確保我們提供更密集的功能以及更高的計算、內存帶寬和內存容量。這種密度使我們能夠更輕鬆地適應各種模型的複雜性和尺寸。

此外,我們還將加速器之間以及主機和加速器之間的結構升級到PCIe Gen5,以提高系統帶寬和可擴展性。如果我們選擇擴展到機架之外,我們還可以選擇添加RDMA擴展。

自我們開始投資MTIA以來,軟體一直是我們關注的關鍵領域之一。作為PyTorch的原始開發人員,我們重視可編程性和開發人員效率。我們的MTA堆棧旨在與PyTorch 2.0以及TorchDynamo和TorchInductor等功能完全集成。前端圖形級捕獲、分析、轉換和提取機制(例如TorchDynamo、torch. port等)獨立於MTIA並且正在被重複使用。MTIA的低級編譯器獲取前端的輸出並生成高效的設備特定代碼。這個較低級別的編譯器本身由幾個組件組成,負責為模型和內核生成可執行代碼。

下面是負責連接到驅動程式/硬體的運行時堆棧。MTA流媒體接口抽象提供了推理和(未來)培訓軟體所需的基本和必要操作,以管理設備內存並在設備上運行操作員並執行已編譯的圖形。最後,運行時與位於用戶空間中的驅動程式交互-我們做出這一決定是為了讓我們能夠在整個生產堆棧中更快地疊代驅動程式和硬體。

在很多方面,這個新晶片系統運行類似於MTIA v1的軟體棧,這使得團隊能夠更快地部署,因為我們已經完成了在此架構上運行應用程式所需的大部分必要集成和開發工作。新的MTIA旨在與為MTIA v1開發的代碼兼容。由於我們已將完整的軟體棧集成到晶片中,我們可以使用這個新晶片在幾天內啟動並運行我們的流量。這使我們能夠快速實施下一代MTIA晶片,在不到9個月的時間內從第一款晶片到在16個地區運行的生產型號。

全部細節 https://go.fb.me/kwahju

如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝

視頻:

返回頂端