三大處理器巨頭迎戰“內存墻”
來源:內容由半導體行業觀察(ID:icbank)編譯自The Register,謝謝。
在最近推出的96 核 Epyc Genoa CPU 的發布會期間,AMD 談到了現代計算面臨的最大挑戰之一。在過去的幾年里,處理器變得更強大的速度已經超過了為這些內核提供數據的內存子系統的速度。
“任何使用非常大內存占用的東西都需要大量帶寬來驅動內核,”Gartner分析師蒂姆哈維告訴The Register。“如果你隨機訪問這些數據,那么你會丟失很多緩存,因此能夠非常快速地提取數據將非常有用。”
這絕不是一個新現象,尤其是在高性能計算 (HPC) 工作負載中。The Next Platform一段時間以來一直在跟蹤計算能力與內存帶寬的增長比例。
但是,雖然轉向 DDR5 4,800MTps DIMM 將使帶寬比最快的 DDR4 提高 50%,但這本身并不足以滿足AMD 的 96 核 Epycs。AMD 工程師不得不通過增加內存控制器的數量來彌補差異,從而將通道增加到 12 個。結合更快的 DDR5,Genoa 提供的內存帶寬是 Milan 的兩倍多。
該方法并非沒有妥協。其一,添加更多通道需要為內存控制器分配更多芯片空間。還必須考慮一些信號注意事項,以支持連接到這些通道的更多 DIMM。然后是將所有這些 DIMM 物理安裝到傳統機箱中的挑戰,尤其是在雙插槽配置中。
正因如此,AMD 至少在接下來的幾代產品中很可能會保持在 12 通道,轉而依靠提高 DDR5 內存速度來提升帶寬。
美光預計內存速度在 DDR5 的生命周期內可達到 8,800MTps。在 12 通道系統中,內存帶寬約為 840GBps。
“DDR5 的性能會隨著時間的推移而提高,但我們仍然會在可用內核和內存帶寬之間存在巨大差異,并且很難滿足它們的需求,”Harvey 說。
傲騰繼續存在
雖然 AMD 解決該問題的方法包括將更多內存控制器物理地塞入其芯片中,并將更快的 DDR5 內存塞入系統中,但英特爾對Xeon Max CPU采取了不同的方法,它將為美國能源部長期延遲的 Aurora 超級計算機提供動力。
這些芯片以前稱為 Sapphire Rapids HBM,在 56 核第四代 Xeon 可擴展處理器中封裝了 64GB 的 HBM2e 內存,能夠提供 1TBps 的帶寬。
雖然技術上你可以完全脫離 HBM 運行芯片,但對于那些需要大量內存來處理大型自然語言模型的人來說,英特爾支持兩種配置的分層內存,這讓人聯想到其最近被裁掉的Optane業務部門。
在英特爾的 HBM 平面模式下,任何外部 DDR5 都充當可單獨訪問的內存池。同時在緩存模式下,HBM 更像是 DDR5 的 4 級緩存。
盡管后者對于某些用例可能具有吸引力,因為它是透明的并且不需要任何軟件更改,但 Harvey 認為,如果它的行為類似于英特爾的 Optane 持久內存,則 HBM 可能得不到充分利用。
“大多數時候,CPU 擅長在指令級別進行緩存;它們不太擅長在應用程序級別進行緩存,”他補充說,在平面模式下運行芯片可能很有希望,盡管這需要軟件供應商的特殊考慮。
“如果你有一個大的 HBM 緩存有效地用于主內存,那么操作系統供應商,虛擬機管理程序供應商將比 CPU 更好地管理它,”他說。“CPU 看不到指令級別,而管理程序知道我將要在這個應用程序和那個應用程序之間切換,因此我可以將該應用程序預加載到 HBM 中。”
合封裝 LPDDR
為了為其第一個數據中心 CPU 實現類似的高帶寬,Nvidia 還將內存轉移到了 CPU 上。但與 Intel 的 Xeon Max 不同,Nvidia 并不依賴昂貴的低容量 HBM 內存,而是使用 LPDDR5x 模塊。
每個Grace Superchip都融合了兩個 Grace CPU 芯片——每個芯片都有 72 個 Arm Neoverse V2 內核——通過芯片制造商的 900GB/s NVLink-C2C 互連連接。這些芯片的兩側是成排的 LPDDR5 內存模塊,可提供 TB 的帶寬和容量。
雖然很難確定,但我們最好的猜測是每個 Grace CPU die 都連接到八個 64GB LPDDR5x 內存模塊,運行速度大約為 8,533MTps。這將為兩個 CPU 芯片中的每一個計算出 546GBps 的帶寬。
蘋果實際上采用了類似的方法,盡管使用速度較慢的 LPDDR5 6,400MTps 內存,以在今年早些時候在 Mac Studio 中推出的M1 Ultra 處理器上實現 800GBps 的內存帶寬。然而,Apple 這樣做的原因與每核內存帶寬的關系不大,而與為芯片的集成 GPU 供電有關。
對于 Nvidia 而言,與使用 HBM 之類的方法相比,該方法提供了一些明顯的優勢,最大的優勢在于容量和成本。美光等供應商提供的 HBM2e 容量最高可達 16GB。這意味著您需要四倍于 LPDDR 的模塊。
但根據哈維的說法,即使是這種方法也不是沒有妥協。將內存靠近 CPU 封裝上意味著您放棄了靈活性。如果你需要超過 1TB 的系統內存,你不能只是添加更多的 DIMM 到組合中——至少不是 Nvidia 的實現方式。
然而,對于英偉達這些芯片的目標市場來說,這可能仍然有意義,Harvey 解釋說。“Nvidia 非常專注于具有特定需求的 AI/ML 工作負載,而英特爾則更專注于通用工作負載。”
CXL 還不是答案
AMD 的 Genoa 和英特爾的第 4 代 Xeon 可擴展處理器都增加了對 CXL 1.1 互連標準的支持。
Astera Labs和三星等公司早期實施該技術將允許新穎的內存配置,包括內存擴展和內存分層。
然而,目前,這些設備可用的帶寬有限,這意味著它們在解決 CPU 和內存性能不匹配方面的作用有限。
AMD 的實施具有專用于 CXL 設備的 64 條通道。但是,由于這些通道的分叉方式,CXL 設備一次只能訪問其中的四個通道。由于 CXL 1.1 基于 PCIe 5.0,這意味著每個設備的帶寬限制為 16GBps。
“隨著時間的推移,它可能會為內存帶寬打開一些東西,但我認為最初的實現可能不夠快,”Harvey 說。
隨著未來幾代 PCIe 的出現,這種情況可能會改變。互連技術的帶寬通常會在每一代之后加倍。因此,通過 PCIe Gen 7.0,單個 CXL 4x 設備將擁有接近 64GBps 的可用帶寬。
就目前而言,Harvey 認為 CXL 對于內存需求量大的應用程序最有價值,這些應用程序不一定對帶寬或分層內存配置敏感。
本文來自微信公眾號“半導體行業觀察”(ID:icbank),36氪經授權發布。
