新聞中心

數(shù)據(jù)家,idc官網(wǎng),算力,裸金屬,高電機房,邊緣算力,云網(wǎng)合一,北京機房,北京云計算,北京邊緣計算,北京裸金屬服務(wù)器,北京數(shù)據(jù)服務(wù)器,北京GPU服務(wù)器,高算力服務(wù)器,數(shù)據(jù)機房相關(guān)技術(shù)新聞最新報道

當前位置：首頁 > 新聞中心 > 新聞詳情

英偉達發(fā)布史上最大的GPU芯片！盤點GTC2024上的重磅硬件產(chǎn)品

2024-03-29 11:07:47

人工智能進入生成式AI階段，大模型在給企業(yè)帶來更高工作效率的同時，也對算力提出了更高的要求。為了解決算力帶來的挑戰(zhàn)，在今年的GTC2024上，英偉達重磅發(fā)布了全新的 Blackwell計算平臺。此平臺包含了NVIDIA GB200 Grace Blackwell超級芯片，以及第二代 Transformer引擎、第五代NVLink、RAS引擎等創(chuàng)新技術(shù)，還提供了全新的NVIDIA NIM軟件包。

與此同時，基于NVIDIA GB200 Grace Blackwell 超級芯片和諸多創(chuàng)新技術(shù)與產(chǎn)品，NVIDIA還發(fā)布了更強大的新一代AI超級計算機——NVIDIA DGX SuperPOD，能夠用于處理萬億參數(shù)模型，并具有持續(xù)的正常運行時間，以實現(xiàn)超大規(guī)模生成式AI訓(xùn)練和推理工作負載。

那么，被英偉達黃仁勛稱之為更大GPU的NVIDIA GB200 Grace Blackwell 超級芯片，以及基于此打造的超級計算機，都有哪些亮眼的技術(shù)？讓我們一起來看一下。

史上最大的GPU芯片

idc網(wǎng),算力,裸金屬,高電機房,邊緣算力,云網(wǎng)合一,北京機房,北京云計算,北京邊緣計算,北京裸金屬服務(wù)器,北京數(shù)據(jù)服務(wù)器,北京GPU服務(wù)器,高算力服務(wù)器,數(shù)據(jù)機房眾所周知，大模型之所以“大”，是因為它有著巨大的參數(shù)。以谷歌LaMDA模型為例，其參數(shù)高達1370億。另外，GPT-3模型參數(shù)高達1750億，GPT-4更是被曝包含了1.8萬億參數(shù)，而規(guī)模越大，對算力的需求便越多，如訓(xùn)練GPT3.5需要用到約3萬顆英偉達A100芯片。

GTC 2024上，黃仁勛以O(shè)penAI最先進的1.8萬億參數(shù)大模型為例，介紹了其需要的算力情況。據(jù)介紹，該模型需要幾萬億的Token進行訓(xùn)練，萬億參數(shù)與數(shù)萬億的Token相乘，就是訓(xùn)練OpenAI最先進大模型所需的計算規(guī)模。黃仁勛現(xiàn)場估算其計算規(guī)模為3×1025，如果利用一顆petaflop（每秒鐘進行1000萬億次運算）量級的GPU進行運算，需要1000年的時間才能完成。

為了解決算力問題，NVIDIA正式推出了GB200 Grace Blackwell大芯片。之所以稱之為“大”，不僅表現(xiàn)在其擁有當前GPU中最大的晶體管數(shù)量，提供了目前最高的計算性能，而且其擁有目前最大的GPU物理面積。

跟往年一樣，在GTC2024上黃仁勛同樣對GB200 Grace Blackwell芯片進行了展示。他從口袋里掏出一塊Blackwell芯片，將它與Hopper芯片并排舉起?？梢钥吹剑?/span>后者明顯要小一些。黃仁勛表示，我們需要更大的GPU，Blackwell平臺就是為了應(yīng)對這一挑戰(zhàn)而構(gòu)建的。

作為當前面積最大的GPU，GB200 Grace Blackwell芯片通過900GB/s超低功耗的片間互聯(lián)，將兩個NVIDIA B200 Tensor Core GPU與NVIDIA Grace CPU相連。它采用臺積電4nm工藝，擁有2080億晶體管， AI性能達到20 petaflops。相比英偉達Hopper，Blackwell GPU的AI性能提升5倍，片上存儲提升4倍。

除了擁有強大的計算性能之外，NVIDIA GB200 Grace Blackwell超級芯片還采用了以下五大核心技術(shù)：

1）第二代Transformer引擎：得益于全新微張量縮放支持，以及集成于NVIDIA TensorRT?-LLM和NeMo Megatron框架中的NVIDIA先進動態(tài)范圍管理算法，Blackwell將在新型4位浮點AI推理能力下實現(xiàn)算力和模型大小翻倍。

2）第五代NVLink：為了提升萬億級參數(shù)模型和混合專家AI模型的性能，最新一代NVIDIA NVLink?為每塊GPU提供突破性的1.8TB/s雙向吞吐量，確保多達576塊GPU之間的無縫高速通信，滿足了當今最復(fù)雜LLM的需求。

3）RAS引擎：采用Blackwell架構(gòu)的GPU包含一個用于保障可靠性、可用性和可維護性的專用引擎。此外，Blackwell架構(gòu)還增加了多項芯片級功能，能夠利用AI預(yù)防性維護來運行診斷并預(yù)測可靠性相關(guān)的問題。這將最大程度地延長系統(tǒng)正常運行時間，提高大規(guī)模AI部署的彈性，使其能夠連續(xù)不間斷運行數(shù)周乃至數(shù)月，同時降低運營成本。

4）安全AI：先進的機密計算功能可以在不影響性能的情況下保護AI模型和客戶數(shù)據(jù)，并且支持全新本地接口加密協(xié)議，這對于醫(yī)療、金融服務(wù)等高度重視隱私問題的行業(yè)至關(guān)重要。

5）解壓縮引擎：專用的解壓縮引擎支持最新格式，通過加速數(shù)據(jù)庫查詢提供極其強大的數(shù)據(jù)分析和數(shù)據(jù)科學(xué)性能。

數(shù)據(jù)顯示，Blackwell能夠在擁有高達10萬億參數(shù)的模型上實現(xiàn)AI訓(xùn)練和實時LLM推理。

高達800Gb/s吞吐量的網(wǎng)絡(luò)平臺

除了高性能的計算芯片之外，隨著數(shù)據(jù)量的爆炸式增長，網(wǎng)絡(luò)連接在生成式AI時代也變得至關(guān)重要。

在GTC 2024上，NVIDIA發(fā)布了Quantum-X800 InfiniBand網(wǎng)絡(luò)和NVIDIA Spectrum?-X800 以太網(wǎng)絡(luò)，以及配套的開發(fā)軟件。據(jù)了解，這是全球首批高達 800Gb/s 端到端吞吐量的網(wǎng)絡(luò)平臺，進一步加速了各種數(shù)據(jù)中心中的AI、云、數(shù)據(jù)處理和高性能計算（HPC）應(yīng)用。

Quantum-X800平臺包含NVIDIA Quantum Q3400交換機和NVIDIA ConnectX-8 SuperNIC，二者互連達到了業(yè)界領(lǐng)先的端到端800Gb/s吞吐量，交換帶寬容量較上一代產(chǎn)品提高了5倍，網(wǎng)絡(luò)計算能力更是憑借NVIDIA的SHARP?技術(shù)（SHARPv4）提高了9倍，達到了 14.4Tflops。

Spectrum-X800平臺包含Spectrum SN5600交換機和NVIDIA BlueField-3 SuperNIC，專為多租戶環(huán)境打造，能夠為多租戶生成式AI云和大型企業(yè)級用戶提供各種至關(guān)重要的先進功能，進而縮短AI解決方案的開發(fā)、部署和上市時間。

在軟件方面，NVIDIA提供面向萬億參數(shù)級AI模型性能優(yōu)化的網(wǎng)絡(luò)加速通信庫、軟件開發(fā)套件和管理軟件等全套軟件方案。其中的NVIDIA集合通信庫（NCCL）可將GPU的并行計算任務(wù)擴展到Quantum-X800網(wǎng)絡(luò)，利用其基于SHARPv4的強大網(wǎng)絡(luò)計算能力和對FP8的支持，為大模型訓(xùn)練和生成式AI提供超強的性能。

處理萬億參數(shù)模型NVIDIA DGX SuperPOD AI超級計算機

基于GB200 Grace Blackwell超級芯片和最新的網(wǎng)絡(luò)產(chǎn)品，NVIDIA在GTC 2024上還宣布推出了一臺專門用于AI的超級計算機：NVIDIA DGX SuperPOD。

這臺NVIDIA DGX SuperPOD計算機基于DGX GB200系統(tǒng)打造而成，每個DGX GB200系統(tǒng)搭載36個NVIDIA GB200超級芯片，共包含36個NVIDIA Grace CPU和72個NVIDIA Blackwell GPU。并且，這些超級芯片通過第五代NVIDIA NVLink連接成一臺超級計算機。

除第五代 NVIDIA NVLink網(wǎng)絡(luò)外，DGX SuperPOD計算機還包括 NVIDIA BlueField-3 DPU，并將支持最新發(fā)布的 NVIDIA Quantum-X800 InfiniBand 網(wǎng)絡(luò)。這個架構(gòu)可為計算平臺中的每塊GPU提供高達每秒1800 GB的帶寬。

數(shù)據(jù)顯示，在FP4精度下可提供11.5 exaflops的AI超級計算性能和240 TB的快速顯存，且可通過增加機架來擴展性能。與NVIDIA H100 Tensor Core GPU相比，GB200超級芯片在大語言模型推理工作負載方面的性能提升了高達30倍。

考慮到功耗和散熱問題，全新的DGX SuperPOD采用新型高效液冷機架級擴展架構(gòu)，能夠更好地提高散熱效率，確保運行穩(wěn)定性的同時，降低整體擁有成本。

談到超級計算機，黃仁勛表示，NVIDIA DGX AI超級計算機是推進AI產(chǎn)業(yè)變革的工廠。新一 DGX SuperPOD集NVIDIA加速計算、網(wǎng)絡(luò)和軟件方面的最新進展于一體，能夠幫助不同的行業(yè)和企業(yè)完善并生成自己的AI。

寫在最后：無論是史上最大的GPU芯片，還是能夠處理萬億參數(shù)的最強計算機，以及擁有800Gb/s端到端吞吐量的網(wǎng)絡(luò)平臺，每一款產(chǎn)品都有著非常亮眼的參數(shù)?？梢哉f，本屆GTC上發(fā)布的每一款硬件產(chǎn)品，都吸引了大眾的眼球。當然，這些產(chǎn)品在生成式AI應(yīng)用場景下的表現(xiàn)如何，讓我們拭目以待吧！