中文字幕无码系列专区|92国产精品午夜福利|久久久综合九色综合88|国产天天看免费无码在线|国产精品黄国产在线综合网|韩国三级在线视频一区二区|伊人久久大香线蕉AV网址|国产精品美女一区二区三区不卡污

北京數(shù)據(jù)家科技股份有限公司-數(shù)據(jù)家,idc官網(wǎng),算力,裸金屬,高電機房,邊緣算力,云網(wǎng)合一,北京機房 北京數(shù)據(jù)家科技股份有限公司-數(shù)據(jù)家,idc官網(wǎng),算力,裸金屬,高電機房,邊緣算力,云網(wǎng)合一,北京機房

新聞中心

數(shù)據(jù)家,idc官網(wǎng),算力,裸金屬,高電機房,邊緣算力,云網(wǎng)合一,北京機房,北京云計算,北京邊緣計算,北京裸金屬服務(wù)器,北京數(shù)據(jù)服務(wù)器,北京GPU服務(wù)器,高算力服務(wù)器,數(shù)據(jù)機房相關(guān)技術(shù)新聞最新報道

解讀AI通用計算芯片:GPU訓(xùn)練CPU推理,用最優(yōu)的成本降低AI算力支出

2024-03-22 14:24:07

當(dāng)前,人工智能已經(jīng)成為推動企業(yè)業(yè)務(wù)創(chuàng)新和可持續(xù)發(fā)展的核心引擎。我們知道,算力、算法和數(shù)據(jù)是人工智能的三大核心要素,缺一不可。今天,筆者就從通用計算芯片這個維度出發(fā),跟大家詳細(xì)聊聊關(guān)于算力的相關(guān)技術(shù)與市場競爭態(tài)勢。

所謂AI計算芯片(也稱邏輯芯片),就是指包含了各種邏輯門電路,即能夠進行運算,又能夠進行邏輯判斷的數(shù)字芯片,包括CPU、GPU、FPGA、ASIC等。這里,我們將通過一些比喻重點跟大家介紹一下CPU與GPU這兩種通用計算芯片,希望大家看完本篇文章,能夠真正了解CPU與GPU的主要差異,以及相互之間的優(yōu)劣勢。

計算機基本架構(gòu)及原理

要了解CPU與GPU的本質(zhì)區(qū)別,首先要簡單地認(rèn)識一下計算機的基本架構(gòu)。

從數(shù)據(jù)輸入到結(jié)果輸出,現(xiàn)在的計算機大都是基于1940年代誕生的馮·諾依曼架構(gòu)演進而來。在這個架構(gòu)中,主要有輸入設(shè)備、存儲器、運算器(ALU,也稱邏輯運算單元)、控制器(CU)、輸出設(shè)備組成。

數(shù)據(jù)輸入:將外部數(shù)據(jù)輸入到數(shù)據(jù)處理引擎中;

數(shù)據(jù)緩存區(qū):負(fù)責(zé)計算過程中臨時數(shù)據(jù)的存儲與讀取,主要用來提高數(shù)據(jù)的讀寫效率;

控制單元:負(fù)責(zé)接收數(shù)據(jù)處理的控制命令,并且執(zhí)行對整個處理引擎的控制和狀態(tài)進行實時反饋;

計算單元:即數(shù)據(jù)處理的核心;

數(shù)據(jù)輸出:輸出處理好的數(shù)據(jù),與外界進行交互。

本質(zhì)上,CPU與GPU都是從馮·諾依曼架構(gòu)演進而來,但由于采用了不同的架構(gòu),因此雙方在計算性能上存在著較大的差異。接下來,我們就通過以英特爾為代表的x86架構(gòu)和以英偉達(dá)為代表的CUDA(NV-RSIC)架構(gòu),來介紹一下兩者的不同之處。

架構(gòu)設(shè)計不同帶來的差異

1)CPU:串行計算

作為計算機中的核心部件,CPU就像我們?nèi)祟惖拇竽X一樣,它不僅僅要執(zhí)行各種復(fù)雜的計算任務(wù),還要負(fù)責(zé)控制其它部件之間的協(xié)作。因此,除了計算單元外,控制單元也在CPU中扮演著重要的角色。(CPU架構(gòu)示意如下圖)

上圖可以看到,在整個CPU架構(gòu)中,負(fù)責(zé)計算的綠色區(qū)域占的面積相對并不算大,反而黃色區(qū)域的控制單元占據(jù)了不少的空間。因此,除了計算之外,CPU也比較擅長邏輯控制。

和我們的大腦一樣,CPU只能同時完成一件事情,是以串行方式進行計算的。指令在CPU中執(zhí)行的過程就像一個工廠生產(chǎn)車間中的一條流水線,即先讀取指令,之后通過指令總線送到控制器中進行譯碼,并發(fā)出相應(yīng)的操作控制信號;然后運算器按照操作指令對數(shù)據(jù)進行計算,并通過數(shù)據(jù)總線將得到的數(shù)據(jù)存入數(shù)據(jù)緩存器,完成一條指令的計算過程。(如下圖)

取指令 ->指令譯碼 ->指令執(zhí)行這個過程中,只有在指令執(zhí)行的時候計算單元才發(fā)揮作用,這樣取指令和指令譯碼的兩段時間,計算單元工作,這就會造成計算效率不高。

為了提高指令執(zhí)行的效率,在不同的指令之間,通過預(yù)先讀取后面的幾條指令,使得指令流水處理,這樣就減少了指令等待的過程,提高了指令執(zhí)行效率。(如下圖)

當(dāng)然,提高時鐘頻率、增加更多的核心數(shù)量,也能夠有效地提高CPU的計算效率,但隨著技術(shù)瓶頸的出現(xiàn),提高核心數(shù)量和提高時鐘頻率的難度越來越大,且?guī)淼男阅芴嵘壤絹碓叫 ?/span>

不難發(fā)現(xiàn),受架構(gòu)影響,CPU有著很強的邏輯運算能力,但并不擅長1+1=2的大量數(shù)據(jù)的并行計算。因此,在AI訓(xùn)練過程中,需要大規(guī)模并行計算時,CPU的優(yōu)勢就非常不明顯了。

2)GPU:并行計算

idc網(wǎng),算力,裸金屬,高電機房,邊緣算力,云網(wǎng)合一,北京機房,北京云計算,北京邊緣計算,北京裸金屬服務(wù)器,北京數(shù)據(jù)服務(wù)器,北京GPU服務(wù)器,高算力服務(wù)器,數(shù)據(jù)機房在計算機中,GPU最初設(shè)計的初衷是加速圖形圖像處理,即專用加速器。因此,GPU內(nèi)部采用了并行計算的設(shè)計,控制單元僅占很小的一部分。(見下圖)

上圖可以看到,GPU內(nèi)部擁有大量的計算單元。由于采用了并行架構(gòu)設(shè)計,每一組計算單元都有單獨的緩存和控制器。

由于具有大量的計算單元,僅用來進行圖形圖像處理,應(yīng)用范圍過于狹窄,也無法真正發(fā)揮GPU的價值。于是,NVIDIA提前感知到AI將成為未來的主要技術(shù)趨勢,并將GPU內(nèi)部的計算單元進行了通用化的重新設(shè)計,GPU變成了GPGPU,即通用并行計算平臺,也就是今天我們所指的GPU。

GPU不僅能夠處理圖形數(shù)據(jù),還可以處理非圖形化數(shù)據(jù),特別是在運算量遠(yuǎn)大于數(shù)據(jù)調(diào)度和傳輸?shù)挠嬎銜r,GPU的性能遠(yuǎn)遠(yuǎn)大于CPU,因此在進行大量數(shù)據(jù)的訓(xùn)練時,GPU有著更強的優(yōu)勢。

當(dāng)然,由于控制單元并不占優(yōu)勢,因此在進行邏輯運算時,GPU并不占優(yōu)勢。也就是說,讓GPU進行大量數(shù)據(jù)的簡單運算,速度更快,就像把大量的土豆全部切成片,GPU會更快。但是,如果讓它執(zhí)行將一小部分土豆切成絲,一大部分切成片這樣的任務(wù)時,GPU就不占優(yōu)勢了。

CPU vs GPU:合理搭配降低AI總體成本

通過以上介紹不難發(fā)現(xiàn),由于底層架構(gòu)存在著較大的差異,因此雙方在AI運算中也扮演著不同的角色。

舉個例子,CPU具備更強的邏輯運算能力,就好像一位資深的老教授;GPU并行計算能力更優(yōu),就好像很多小學(xué)生同時進行1+1的簡單計算。在同時進行大量簡單的計算任務(wù)時,人數(shù)越多越占優(yōu)勢,完成的時間就越短;但是,如果在進行微積分等更加復(fù)雜的計算任務(wù)時,CPU就更加占有優(yōu)勢。

具體到AI計算方面,由于CPU有著更強的邏輯運算能力,就更加適合推理;而GPU擁有大量的計算單元,就更適合訓(xùn)練。

當(dāng)然,無論是英特爾還是英偉達(dá),都在通過不斷進行架構(gòu)優(yōu)化,來提高AI的計算能力。例如英特爾,在最新推出的第五代至強可擴展處理器中,通過在每個內(nèi)核中都內(nèi)置英特爾AMX加速AI模塊器的方式,讓AVX-512和AMX都可以在CPU上使用,以提高AI推理的性能。根據(jù)官方給出的數(shù)據(jù),基礎(chǔ)平均性能較上一代提升21%,而AI推理性能的提升則高達(dá)42%。同時,得益于內(nèi)置的英特爾高級矩陣擴展功能,第五代至強處理器無需搭配獨立的AI加速器,就可以直接應(yīng)付嚴(yán)苛的AI工作負(fù)載。

英偉達(dá)GTC2024上發(fā)布的全新B200 GPU,采用了兩個GPU die集成在同一芯片上的設(shè)計,并配備了192GB的HBM3e超大內(nèi)存?;贕B200 NVL72打造的MGX系統(tǒng),能夠?qū)崿F(xiàn)30TB的統(tǒng)一內(nèi)存,130TB/s的總帶寬,甚至是單機柜exaFLOP級(FP4精度)的AI算力。英偉達(dá)表示,即便面對1.8萬億參數(shù)的GPT-MoE-1.8T超大模型,也可以實現(xiàn)比同數(shù)量H100 GPU高出4倍的訓(xùn)練性能。

雖然目前GPU的熱度遠(yuǎn)高于CPU,但在筆者看來CPU仍然不可替代。原因在于,CPU不但具備更強的推理能力,并且擁有更高的性價比。這是因為,目前大部分?jǐn)?shù)據(jù)中心中并不缺少CPU計算資源,且相對部署已經(jīng)更加完善和成熟。因此,考慮到成本因素,包括采購成本、部署成本、使用成本(功耗)等,也成為眾多廠商選擇CPU進行推理的重要原因。