新聞中心

數(shù)據(jù)家,idc官網(wǎng),算力,裸金屬,高電機房,邊緣算力,云網(wǎng)合一,北京機房,北京云計算,北京邊緣計算,北京裸金屬服務(wù)器,北京數(shù)據(jù)服務(wù)器,北京GPU服務(wù)器,高算力服務(wù)器,數(shù)據(jù)機房相關(guān)技術(shù)新聞最新報道

當前位置：首頁 > 新聞中心 > 新聞詳情

2024年數(shù)據(jù)中心發(fā)展趨勢：更熱、更密、更智能

2024-02-26 15:25:07

如今的數(shù)據(jù)中心行業(yè)與十年之前頗有不同，這主要是受過去幾年間諸多現(xiàn)實因素的影響：AI技術(shù)的大規(guī)模擴散、摩爾定律有所放緩，以及令人頭痛的可持續(xù)性問題等。

Uptime Institute預(yù)計，隨著運營商對于供電、冷卻、管理、高密度與監(jiān)管壓力等問題的關(guān)注和規(guī)劃，整個數(shù)據(jù)中心行業(yè)將在2024年內(nèi)迎來又一波重大變化。

雖然未能在Uptime的清單中位列頭名，但考慮到人人都關(guān)注AI問題，所以我們就由此入手。在過去12個月中，各大主要云服務(wù)商和超大規(guī)?；A(chǔ)設(shè)施運營商紛紛部署起體量可觀的GPU集群。Uptime預(yù)計，英偉達單在2023年一年就售出了60萬張H100（我們推測可能接近71萬張）。而截至2024年底，這家芯片制造巨頭的GPU出貨量有望進一步增長至150萬至200萬張。

不必擔心，AI基礎(chǔ)設(shè)施的建設(shè)并不像大家想象中那么麻煩。

但也必須承認，面對如此規(guī)模的部署以及市場對于生成式AI支持技術(shù)似乎永無止境的需求，數(shù)據(jù)中心行業(yè)正在、也必須做好應(yīng)對需求暴增，特別是支持大規(guī)模GPU及其他加速器部署所帶來的散熱與功耗問題。

雖然HPC專業(yè)人士對越來越高的加速器性能和供電密度并不陌生，但與典型的雙插槽系統(tǒng)相比，新設(shè)施明顯把這兩項指標推向了新的水平。

英偉達的H100和即將發(fā)布的H200在額定功率方面均超過700瓦，而這還僅僅是單片的功耗。一個AI集群通常安裝有四到八張GPU，這就讓熱設(shè)計功率直接攀升到千瓦級別。

但Uptime估計，AI基礎(chǔ)設(shè)施浪潮對于大多數(shù)運營商其實影響有限。這主要是因為芯片產(chǎn)能仍無法滿足需求，而能夠掌握巨量部署資源的企業(yè)也相對較少。

無論如何，大規(guī)模部署此類系統(tǒng)的數(shù)據(jù)中心必然面臨供電與熱管理方面的雙重挑戰(zhàn)。好在有幾種方法能夠解決這些具體問題，而最簡單的辦法之一就是將系統(tǒng)分散到更大的占地面積當中，這也是對設(shè)施環(huán)境變動最小的解決方案。

舉例來說，假設(shè)現(xiàn)有基礎(chǔ)設(shè)施能夠容納每機架25千瓦的供電與相應(yīng)發(fā)熱負載，那么運營商可能會嘗試把DGX節(jié)點分散在兩倍的機架當中。這當然會導(dǎo)致機柜中出現(xiàn)大量留空區(qū)域，但對于某些特定工作負載來說，只要空間成本不是太高，那這反而是最簡單、實施難度最低的選項。

可正如我們之前從Digital Realty公司首席技術(shù)官Chris Sharp的分享中所知，盡管分散系統(tǒng)的確解決了發(fā)熱量和電力傳輸?shù)膯栴}，但卻不太適合那些基于專用互連結(jié)構(gòu)的訓(xùn)練類工作負載。比如說NVLink的覆蓋范圍有限，所以最好能配合密度更大的部署方案。

直接液冷顯露優(yōu)勢

第二種選擇是將設(shè)施升級為液體冷卻，特別是直接液冷（DLC）設(shè)計。Uptime分析師們預(yù)測，面對芯片發(fā)熱量、系統(tǒng)密度以及可持續(xù)性等方面的巨大壓力，運營商們將在2024年內(nèi)更廣泛地部署直接液冷方案，用短期安裝便利性換取更強的硬件性能表現(xiàn)。

直接液冷在效率上通常高于傳統(tǒng)風冷，畢竟液體是熱量的更好導(dǎo)體，而且這項技術(shù)也在很大程度上消除了對機柜風扇的需求。據(jù)我們了解，采用液冷技術(shù)能夠?qū)⑾到y(tǒng)功耗降低達20%。但Uptime同時提到，由于液冷功耗會與整體IT系統(tǒng)功耗混雜一處，所以具體量化將極為困難。

idc網(wǎng),算力,裸金屬,高電機房,邊緣算力,云網(wǎng)合一,北京機房,北京云計算,北京邊緣計算,北京裸金屬服務(wù)器,北京數(shù)據(jù)服務(wù)器,北京GPU服務(wù)器,高算力服務(wù)器,數(shù)據(jù)機房而且發(fā)揮直接液冷的節(jié)能潛力也絕不是嘴上說說這般簡單。Uptime解釋稱，不少設(shè)施運營商可能傾向于先把冷卻液維持在較低溫度，借此改善對基礎(chǔ)設(shè)施的冷卻效果。據(jù)我們了解，這樣能夠減輕基礎(chǔ)設(shè)施設(shè)計負載，有利于延長IT硬件的使用壽命。但在能效角度看，這種作法卻不及使用溫度較高的室溫冷卻液，因為需要額外消耗電力來主動降低冷卻液溫度。

必須承認，低溫直接液冷確實具有性能優(yōu)勢。液溫較低意味著CPU和加速器將始終維持更低的工作溫度，從而能夠以更高的超頻水平（以及相應(yīng)的運行功率）運行更長時間。

人們真正擔心的，是采用直接液冷系統(tǒng)所節(jié)約的成本會被更高的系統(tǒng)負載所抵消，導(dǎo)致改造缺乏回報。

實現(xiàn)可持續(xù)性需要另辟蹊徑

Uptime還指出，直接液冷很可能無助于可持續(xù)發(fā)展目標的實現(xiàn)，而迫在眉睫的監(jiān)管要求則讓運營商們別無選擇。

原則上，每家主要云服務(wù)商和超大規(guī)模數(shù)據(jù)中心運營商在過去幾年間都做出了類似凈零排放的可持續(xù)發(fā)展承諾。至于微軟和谷歌等科技大廠，距離他們提出的首個主要里程碑就只剩下幾年時間了。

Uptime預(yù)測，如果數(shù)據(jù)中心運營商真想要兌現(xiàn)自己的承諾，就必將面臨一段艱難的時期。由于數(shù)據(jù)中心的部署區(qū)域并不一定擁有豐富的可再生能源供應(yīng)，所以風能、太陽能和潮汐能等新能源類型的落地也往往于事無補。

不止如此，全球各國政府還一直在敦促各服務(wù)器農(nóng)場提升電力消耗與碳足跡的透明度。

去年九月通過的歐盟企業(yè)可持續(xù)發(fā)展報告指令，以及加州氣候企業(yè)數(shù)據(jù)責任法案等規(guī)定，將很快要求更多企業(yè)上報碳排放及業(yè)務(wù)運營引發(fā)的氣候相關(guān)風險。

Uptime報告稱，美國證券交易委員會（SEC）也開始重視這一問題，并要求大型上市企業(yè)在其季度報告中披露部分排放數(shù)據(jù)。

毫無疑問，一眾監(jiān)管要求中最為嚴苛的當數(shù)去年秋季發(fā)布的歐盟能源效率指令。這份文件列出了針對數(shù)據(jù)中心及其他IT與網(wǎng)絡(luò)運營商的報告要求。但需要強調(diào)的是，該指令旨在獲取關(guān)于使用模式的數(shù)據(jù)，暫不對數(shù)據(jù)中心設(shè)施的運營方式做規(guī)范性約束。

雖然這些監(jiān)管要求的本意是好的，但Uptime通過調(diào)查發(fā)現(xiàn)，參與調(diào)查的數(shù)據(jù)中心運營商中已經(jīng)開始實際追蹤碳排放等指標的比例只有不到一半。

數(shù)據(jù)中心智能化升級已經(jīng)勢在必行

多年以來，Uptime一直呼吁在數(shù)據(jù)中心領(lǐng)域廣泛引入數(shù)據(jù)驅(qū)動自動化方案。分析師們認為，2024年可能就是全面實現(xiàn)這個目標的時間節(jié)點。

問題的根源在于，盡管數(shù)據(jù)中心內(nèi)的硬件設(shè)備發(fā)生了根本性變化，但管理工具的發(fā)展卻陷入了停滯。大多數(shù)樓宇管理系統(tǒng)（BMS）和數(shù)據(jù)中心基礎(chǔ)設(shè)施管理（DCIM）軟件所能提供的自動化分析功能仍相對有限。

可以想見，只要在管理層面做出適度改進，運營商們即可顯著提高能效，同時降低后續(xù)監(jiān)管和排放上報要求的執(zhí)行門檻。此類系統(tǒng)運營自動化的典型用例，就是在需求低價階段調(diào)整環(huán)境系統(tǒng)，避免浪費電力去冷卻那些根本沒有高強度運行的閑置系統(tǒng)。

Uptime還認為，更高級的自動化技術(shù)將基于由設(shè)施數(shù)據(jù)集訓(xùn)練而成的AI模型，以預(yù)測性方式靈活調(diào)整數(shù)據(jù)中心的運行模式。

將這種類似AIOps的功能應(yīng)用于數(shù)據(jù)中心整體當然好處多多，但Uptime分析師對于現(xiàn)有DCIM軟件供應(yīng)商的適應(yīng)能力卻持悲觀態(tài)度。相反，分析師們預(yù)計這些功能將率先誕生于新一代初創(chuàng)公司之手。Uptime目前正在關(guān)注六家處于不同發(fā)展階段的此類廠商，并認為他們的研發(fā)成果有望解決基礎(chǔ)設(shè)施的智能運營難題。

雖然報告沒有具體給出名稱，但我們懷疑其中之一很可能是Oxide Computer。該公司由前Sun Microsystems軟件工程師Bryan Cantrill與Joyent總裁Steve Tuck共同創(chuàng)立，專注于機架級計算場景，甚至內(nèi)部原研了基板管理控制器（BMC）以避免使用Aspeed等行業(yè)標準控制器。

超大規(guī)模設(shè)施園區(qū)或成主流

一系列現(xiàn)實趨勢，特別是為了應(yīng)對AI需求持續(xù)增長而形成的算力密度提升，正推動運營商們投資建立由多個數(shù)據(jù)機房構(gòu)成的超大規(guī)模服務(wù)器園區(qū)。

根據(jù)Uptime的介紹，這些園區(qū)可能占地數(shù)百萬平方米，旨在滿足多租戶的電力與連接需求，而且往往會在設(shè)計之初就強調(diào)使用更多清潔能源。

此類新園區(qū)的核心特征就是實現(xiàn)千兆瓦級容量。作為設(shè)施規(guī)劃中的關(guān)鍵詞，這些新園區(qū)肯定不會在初期運行時就達到這樣的功率水平，但為了避免在生命周期內(nèi)遭遇擴展瓶頸，其很可能會預(yù)留出容量空間以承載后續(xù)設(shè)施。

去年，我們還看到不少更為激進的探索案例，包括利用氫燃料電池或小型模塊化反應(yīng)堆等新型能源來提供數(shù)千兆瓦電力。

而且除了共享供電設(shè)施這個優(yōu)勢之外，相互競爭的數(shù)據(jù)中心運營商也可能出于另一個理由而選擇彼此抱團，這就是設(shè)施之間的低延遲通信。

Uptime提出的這些數(shù)據(jù)中心（未來可能更適合稱其為數(shù)據(jù)城市）趨勢性預(yù)測將有助于降低托管與連接成本、提高設(shè)施彈性并提高運營可持續(xù)性。

這些預(yù)測最終能否落地還要留給時間來證明，但可以肯定的是，數(shù)據(jù)中心必將向著更大、更多、更費電的方向一路狂奔。

中文字幕无码系列专区|92国产精品午夜福利|久久久综合九色综合88|国产天天看免费无码在线|国产精品黄国产在线综合网|韩国三级在线视频一区二区|伊人久久大香线蕉AV网址|国产精品美女一区二区三区不卡污