美國Aurora國家實驗室Exascale超級電腦配備揭曉，採用Intel Xe HPC ‘PVC’ GPU與Xeon Sapphire Rapids CPU，2021年開始部署 ft. 兩大CPU市場分析

CPU / 中央處理器

Gaming VGA 電競顯示卡 / AI Computing Card 算力卡 / GPU 繪圖晶片 / 顯示卡支撐架焦點伺服器世界科技情報

美國Aurora國家實驗室Exascale超級電腦配備揭曉，採用Intel Xe HPC ‘PVC’ GPU與Xeon Sapphire Rapids CPU，2021年開始部署 ft. 兩大CPU市場分析

文．圖／Johan 2020-05-11 13:00:00

這篇不是超級英雄之戰，而是超級電腦之戰！上週我們報導過Intel確認將推出Xe HP 萬能級GPU，採用MCM封裝，該GPU核心就是Ponte Vecchio (義大利佛羅倫斯市內的一座老橋)，採用7nm製程設計，裡面電容數超過數以十億計，大小為3696mm²，寬度比一顆AA電池還大！令人大開眼界！

由於先前Intel標到Aurora超級電腦建構計畫，其合作內容是，Intel將與Cray一同建構起Exascale (百億億次級) 超級電腦，並於2021年部署！這次的超級電腦將採用兩組Sapphire Rapids Xeon處理器，以及高達6顆上述的Ponte Vecchio GPU，這些GPU將採用CXL (Compute Express Link)與OneAPI軟體堆疊來進行連接，以達到高效能運算目標。

Intel標到的Aurora超級電腦建構計畫中，將採用的電腦主機架構。採用雙Xeon可擴充處理器，搭配6顆Xe架構Ponte Vecchio繪圖處理器，採用UMA(統一記憶體架構)、全節點互連設計，具可擴充能力之節點間異步化I/O處理

Aurora國家實驗室公佈硬體細節，採2 CPU + 6 GPU設計

由Intel主導的Aurora超級電腦建構計畫，已於日前公布其細節，該電腦將配備上述的2顆Sapphire Rapids Xeon CPU，以及6顆Ponte Vecchio (PVC)的Xe HPC等級GPU，預計將達到1 ExaFLOPs的巔峰效能，該系統將在2021年正式於Argonne國家實驗室部署，此將成為地表上首台Exascale級的超級電腦！

Intel的Aurora超級電腦標案，將採用的電腦硬體，細節說明

這款電腦由於配置了6顆PVC Xe HPC (7nm) GPU和2顆Sapphire Rapids Xeon CPU (10nm++) CPU，在各GPU之間將採用CXL (Compute Express Link)與OneAPI軟體堆疊來進行連接，系統採用統一記憶體架構(UMA)讓CPU和GPU的資料可以共用存取，以達到高效能運算目標。

Intel的Aurora超級電腦標案，其使用的節點與互連機制架構說明

Intel GPU的內部架構說明

Cray負責機架與系統設計，以串起高效能應用需求

這項計畫中，Intel主要負責做CPU與GPU，而Cray (克雷電腦)則負責設計載體，也就是他們Shasta系統，其包含機架與機櫃，該機架支持各種CPU，並能針對伺服器密度、散熱效率，以及高效能網路頻寬進行不同比例的優化 (Cray可說是這次計畫的SI廠商)，讓Intel這個全新的處理器架構，能夠在高效能運算(HPC)應用中，穩定運作且發揮出全速效能。

Cray的Shasta系統說明

而在記憶體、儲存裝置與頻寬部份，先說記憶體好了，他們表示正在尋找能配置超過10 PB (1 PB = 1024TB)的系統記憶體，搭配Cray的Slingshot Fabric互連機制。已知Aurora超級電腦的每個運算節點，總共有8個Slingshot Fabric進行互連，而該電腦系統也會採用兩種不同的檔案系統，其中一個是DAOS (分佈式異步對象儲存)，另一個則是Lustre。兩者各有其優點，一個是高容量低頻寬，另一個則是相反，分述如下：

(1) DAOS: 可支援大約 230 PB的儲存容量，頻寬超過25TB/s
(2) Lustre: 可完整支援到150 PB 的儲存容量，頻寬大約1 TB/s

Cray的Slingshot網路架構說明

此外，在軟體方面，Cray也有自己的軟體堆疊層，可改善模組效率，同時提供統一的高效能互連機制。有鑑於其Slingshot是其第八代高速互連架構，具備許多HPC應用的必備特色，像是壅塞管理、僅3 hops的dragonfly系統，還有流量類別。同時還使用Rosetta高頻寬交換器，能提供高達25.6Tb/s的頻寬(單一方向為25GB/s)，以符合Exascale等級的運算需求。

Cray的Dragonfly拓樸說明

Cray的Rosetta高頻寬交換器介紹

DAOS (分佈式異步對象儲存)架構說明

這就是Aurora的硬體特色一覽表

Intel的10nm++ CPU配7nm GPU強嗎？Xe GPU架構分析

Intel Xe家族，依照等級高低可區分成最高階的HPC、中階的HP，以及消費性的LP。先說最高檔的HPC吧！這次的Ponte Vecchio (PVC) GPU，將採用7nm製程設計，搭配其Foveros 3D封裝技術，並以MCM的封裝設計，晶圓面積勢必不小。此外，每顆MCM GPU將通過EMIB (嵌入式多晶片互連橋接，Embedded Multi-die Interconnect Bridge)連接到高密度HBM(高頻寬記憶體)之DRAM封裝，並在旁邊放置一個更快速的Rambo Cache，該快取也是透過Foveros來進行連接。再搭配Cray的Slingshot提供節點之間的互連，便可透過Intel Xe Link將6顆Xe HPC GPU內部互連起來！

Xe Link，將這6顆粒GPU連接在一起，以CXL為基礎

Xe GPU的三個等級，從高至低依序是：Xe HPC、Xe HP、Xe LP

Xe GPU 三種等級的效能區間分佈圖

Xe GPU 區分的市場等級，從最高階數據中心，到消費端的繪圖加速

由於Intel的Xe HPC GPU，將具有幾千個EU (執行單元)，目前已知Xe LP GPU有96組EU，每個EU共有8個核心，因此相乘起來共有768組GPU核心。目前Intel在Gen 9.5和Gen 11的GPU上，每個切片上面擁有8組EU，同時包含8組ALU (算術邏輯單元)，而在Gen12 GPU的子切片中，其EU裡面有點像是NVIDIA在GPC裡面的Shader Model (SM)單元，或是AMD在Shader Engine裡面的CU (運算單元)的組成。因此這樣演化下去，將可以看到大量由許多子切片所組成的超級切片。

這就是Intel DG1 (採用Xe LP GPU)顯示卡本尊與產品特色

簡單來說，1顆具備1000個EU的GPU晶片，裡面就含有8000組GPU核心，不過有可能更多，因為先前有看到中階的Xe HP GPU以4顆堆起的大GPU，就內建了2048個EU (相當於16384組GPU核心)的設計，預期高階的Xe HPC GPU將可能更多，晶圓面積也將更巨大！

這是Intel Xe HPC GPU (Ponte Vecchio) 7nm GPU的內部架構，一個切片有8個EU

由於Xe HP GPU具備可變動向量寬度指令集，例如GPU專用的SIMT，以及CPU專用的SIMD格式，兩者搭配起來將有最大效能。而根據Xe HP GPU的單顆、雙顆、四顆搭起來之後，其效能大概可以預估如下：

(1) Intel Xe HP (12.5) 1顆GPU: 512 EU (約4096核心，12.2 TFLOPs，150W)
(2) Intel Xe HP (12.5) 2顆GPU: 1024 EU (約8192核心，20.48 TFLOPs，300W)
(3) Intel Xe HP (12.5) 4顆GPU: 2048 EU (約16384 核心，36 TFLOPs，400～500W)

這就是Intel Xe HP GPU (Ponte Vecchio)的MCM封裝，好大一顆!

Xe HPC GPU之間巨無霸級的快取，肩負FP64等級的運算需求

至於高階的Xe HPC GPU，Raja Koduri在Intel開發者大會提到，HPC將可達到1000個EU，相當於單顆就有8000個GPU核心，且提供40倍的雙精度浮點運算能力。其中，每個EU是透過新的可擴充式記憶體fabric架構來串連起來，這個新的互連架構就叫做XEMF (即Xe Memory Fabric)，可提供數組高頻寬的記憶體通道。跟Xeon CPU一樣，Xe HPC GPU也需要配置具備ECC功能的記憶體來運作。

此外，Xe HPC還包含一個Rambo Cache，是一個超大型的快取架構，負責將多顆GPU串連在一起。此外透過該快取的巨大級記憶體頻寬，可以持續性的在雙精度運算中，提供尖峰的FP64運算效能。這樣在進行密集的AI運算時，能夠快速且有效的完成各式工作。

Xe HPC採用UMA架構，每個EU以XEMF串起，連接至HBM記憶體，並搭配Rambo Cache設計，以讓GPU和CPU共同存取

至於在製程方面，因為10nm升級到7nm，所以在GPU裡面也獲得一些關鍵性的提升，包含：7nm製程擁有10nm的兩倍密度、Die內部節點優化、設計準則減少4倍、採用EUV (極紫外)光刻機製程、採用下世代Foveros與EMIB封裝。

Xe HPC採用7nm製程設計，以及Foveros封裝技術

這次Xe HPC GPU的推出，搭配OneAPI軟體架構，將使其單一節點的效能，相較於2019年來說，提升超過500倍，2021年見真章！

那麼Sapphire Rapids Xeon CPU的功能又是如何？

在伺服器處理器方面，Intel這次推出的Sapphire Raids Xeon伺服器處理器，將採用10nm++製程，將可能採用Willow Cove核心架構，以取代先前的Sunny Cove架構。此外，這次的Sapphire Raids Xeon處理器，搭配其最新的Eagle Stream晶片組平台，將首度支援到DDR5記憶體，以及PCIe 5.0架構 (對！直接跳到5.0了，不跟你AMD的4.0喇賽)。

有GPU不夠，也要看CPU，這次Aurora超級電腦，搭配的是Xeon等級之CPU，具備ECC記憶體校正等功能

說到這次新的Eagle Stream平台，將採用全新LGA 4677腳位，以取代先前Whitley的LGA 4189腳位(支援Cooper Lake-SP與Ice Lake-SP處理器)。(是的！腳位一直改！)

Sapphire Rapids Xeon處理器，將採用Willow Cove架構！

若跟AMD相比，AMD將於2021年推出EPYC “Milan”伺服器處理器，採用7nm Zen 3架構、支援PCIe 4.0與DDR4。而要是Intel不Delay的話，其2021年推出的Sapphire Rapids Xeon CPU雖說採用10nm++製程，且支援PCIe 5.0與DDR5，記憶體將支援到8通道，雖說製程落後(10nm++)，但規格上卻領先，將可能又把AMD的Milan往下踩。也因此，AMD可能要加緊推出其EPYC “Genoa”，採用新的SP5腳位設計，將以5nm製程設計，支援DDR5與PCIe 5.0等新規格，來與Intel正面對戰！

AMD在伺服器處理器市場部分，於2021年祭出EPYC “Milan”，是基於Zen 3架構、7nm製程的處理器

全面對戰！Intel和AMD從入門市場打到超級電腦市場

上述只的是Intel於2021年必須交付的Aurora exascale系統。當然其實除了Intel之外，還有許多超級電腦標案，包括先前2018年IBM與NVIDIA合作的Summit與Sierra標案，分別擁有200與125 petaflops尖峰處理能力。而2020年AMD與NVIDIA即將交付的Perlmutter超級電腦，則採用上述Zen 3架構EPYC “Milan”處理器與NVIDIA的Tesla GPU，預期可以達到100 petaflops的處理能力，但這些案子都是屬於Pre-exascale等級的超級電腦標案。

各家超級電腦標案的電腦系統名稱、交付日期，與CPU+GPU供應廠商名單

至於比較具有可看性的Exascale超級電腦標案中，除了上述Intel標到的Aurora標案之外，AMD也有標到Frontier超級電腦建構計畫，由是AMD負責CPU與GPU的建構，Cray負責系統、機櫃與互連。在同樣建構Exascale超級電腦的計畫中，AMD表示將採用最新的EPYC 7000處理器，搭配自家Radeon Instinct GPU，來組成1.5百億億次級以上(1.5 exaFLOPs)尖峰處理能力的超級電腦，以用來處理天氣、亞原子結構、基因組學、物理學等科學進行模擬、建立模型等應用。這個案子的CPU和GPU都是AMD自己包辦！

除此之外，HPE (慧宇)也於今年3月標到El Capitan超級電腦建構計畫，將與AMD合作(為什麼不選Intel? 耐人尋味!)，共同打造2百億億次級以上(2 exaFLOPs)尖峰處理能力的超級電腦，並預定於2023年初部署，以提供美國國家核子安全總署(NNSA，National Nuclear Security Administration)使用，該超級電腦將主要用在核子武器建模 (疑? 不是拿來做COVID-19研究喔?!)。

超級電腦中，GPU的效能成為主要重點，這是各家GPU的內部架構！

從上述的Exascale超級電腦標案中，可看出AMD與HPE合作一起拿下的Frontier與El Capitan兩個標案，分別為1.5或2 exaFLOPS等級的超級電腦標案，相較於Intel拿到的Aurora標案僅 1 exaFLOPS，看來AMD陣營還是略勝一籌！只是2021年之後就都要交出成績單了，屆時就要看哪一家在Super Computing的效能競賽中獲得優勝了！誰能成為Super Computing業界中的SuperHero，目前還不曉得。只能說，2021年的伺服器市場戰役，將會非常精彩！

更多CPU / 中央處理器

發表您的看法: 請勿張貼任何涉及冒名、人身攻擊、情緒謾罵、或內容涉及非法的言論。; 請勿張貼任何帶有商業或宣傳、廣告用途的垃圾內容及連結。; 請勿侵犯個人隱私權，將他人資料公開張貼在留言版內。; 請勿重複留言（包括跨版重複留言）或發表與各文章主題無關的文章。; 請勿張貼涉及未經證實或明顯傷害個人名譽或企業形象聲譽的文章。; 您在留言版發表的內容需自負言論之法律責任，所有言論不代表PCDIY!雜誌立場，違反上述規定之留言，PCDIY!雜誌有權逕行刪除您的留言。

CPU / 中央處理器

美國Aurora國家實驗室Exascale超級電腦配備揭曉，採用Intel Xe HPC ‘PVC’ GPU與Xeon Sapphire Rapids CPU，2021年開始部署 ft. 兩大CPU市場分析

Aurora國家實驗室公佈硬體細節，採2 CPU + 6 GPU設計

Cray負責機架與系統設計，以串起高效能應用需求

Intel的10nm++ CPU配7nm GPU強嗎？Xe GPU架構分析

Xe HPC GPU之間巨無霸級的快取，肩負FP64等級的運算需求

那麼Sapphire Rapids Xeon CPU的功能又是如何？

全面對戰！Intel和AMD從入門市場打到超級電腦市場

最近新增

最多人點閱