數(shù)據(jù)家,idc官網(wǎng),算力,裸金屬,高電機房,邊緣算力,云網(wǎng)合一,北京機房,北京云計算,北京邊緣計算,北京裸金屬服務(wù)器,北京數(shù)據(jù)服務(wù)器,北京GPU服務(wù)器,高算力服務(wù)器,數(shù)據(jù)機房相關(guān)技術(shù)新聞最新報道
如今的數(shù)據(jù)中心行業(yè)與十年之前頗有不同,這主要是受過去幾年間諸多現(xiàn)實因素的影響:AI技術(shù)的大規(guī)模擴散、摩爾定律有所放緩,以及令人頭痛的可持續(xù)性問題等。
Uptime Institute預(yù)計,隨著運營商對于供電、冷卻、管理、高密度與監(jiān)管壓力等問題的關(guān)注和規(guī)劃,整個數(shù)據(jù)中心行業(yè)將在2024年內(nèi)迎來又一波重大變化。
雖然未能在Uptime的清單中位列頭名,但考慮到人人都關(guān)注AI問題,所以我們就由此入手。在過去12個月中,各大主要云服務(wù)商和超大規(guī)?;A(chǔ)設(shè)施運營商紛紛部署起體量可觀的GPU集群。Uptime預(yù)計,英偉達單在2023年一年就售出了60萬張H100(我們推測可能接近71萬張)。而截至2024年底,這家芯片制造巨頭的GPU出貨量有望進一步增長至150萬至200萬張。
不必擔心,AI基礎(chǔ)設(shè)施的建設(shè)并不像大家想象中那么麻煩。
但也必須承認,面對如此規(guī)模的部署以及市場對于生成式AI支持技術(shù)似乎永無止境的需求,數(shù)據(jù)中心行業(yè)正在、也必須做好應(yīng)對需求暴增,特別是支持大規(guī)模GPU及其他加速器部署所帶來的散熱與功耗問題。
雖然HPC專業(yè)人士對越來越高的加速器性能和供電密度并不陌生,但與典型的雙插槽系統(tǒng)相比,新設(shè)施明顯把這兩項指標推向了新的水平。
英偉達的H100和即將發(fā)布的H200在額定功率方面均超過700瓦,而這還僅僅是單片的功耗。一個AI集群通常安裝有四到八張GPU,這就讓熱設(shè)計功率直接攀升到千瓦級別。
但Uptime估計,AI基礎(chǔ)設(shè)施浪潮對于大多數(shù)運營商其實影響有限。這主要是因為芯片產(chǎn)能仍無法滿足需求,而能夠掌握巨量部署資源的企業(yè)也相對較少。
無論如何,大規(guī)模部署此類系統(tǒng)的數(shù)據(jù)中心必然面臨供電與熱管理方面的雙重挑戰(zhàn)。好在有幾種方法能夠解決這些具體問題,而最簡單的辦法之一就是將系統(tǒng)分散到更大的占地面積當中,這也是對設(shè)施環(huán)境變動最小的解決方案。
舉例來說,假設(shè)現(xiàn)有基礎(chǔ)設(shè)施能夠容納每機架25千瓦的供電與相應(yīng)發(fā)熱負載,那么運營商可能會嘗試把DGX節(jié)點分散在兩倍的機架當中。這當然會導(dǎo)致機柜中出現(xiàn)大量留空區(qū)域,但對于某些特定工作負載來說,只要空間成本不是太高,那這反而是最簡單、實施難度最低的選項。
可正如我們之前從Digital Realty公司首席技術(shù)官Chris Sharp的分享中所知,盡管分散系統(tǒng)的確解決了發(fā)熱量和電力傳輸?shù)膯栴},但卻不太適合那些基于專用互連結(jié)構(gòu)的訓(xùn)練類工作負載。比如說NVLink的覆蓋范圍有限,所以最好能配合密度更大的部署方案。
第二種選擇是將設(shè)施升級為液體冷卻,特別是直接液冷(DLC)設(shè)計。Uptime分析師們預(yù)測,面對芯片發(fā)熱量、系統(tǒng)密度以及可持續(xù)性等方面的巨大壓力,運營商們將在2024年內(nèi)更廣泛地部署直接液冷方案,用短期安裝便利性換取更強的硬件性能表現(xiàn)。
直接液冷在效率上通常高于傳統(tǒng)風冷,畢竟液體是熱量的更好導(dǎo)體,而且這項技術(shù)也在很大程度上消除了對機柜風扇的需求。據(jù)我們了解,采用液冷技術(shù)能夠?qū)⑾到y(tǒng)功耗降低達20%。但Uptime同時提到,由于液冷功耗會與整體IT系統(tǒng)功耗混雜一處,所以具體量化將極為困難。
idc網(wǎng),算力,裸金屬,高電機房,邊緣算力,云網(wǎng)合一,北京機房,北京云計算,北京邊緣計算,北京裸金屬服務(wù)器,北京數(shù)據(jù)服務(wù)器,北京GPU服務(wù)器,高算力服務(wù)器,數(shù)據(jù)機房而且發(fā)揮直接液冷的節(jié)能潛力也絕不是嘴上說說這般簡單。Uptime解釋稱,不少設(shè)施運營商可能傾向于先把冷卻液維持在較低溫度,借此改善對基礎(chǔ)設(shè)施的冷卻效果。據(jù)我們了解,這樣能夠減輕基礎(chǔ)設(shè)施設(shè)計負載,有利于延長IT硬件的使用壽命。但在能效角度看,這種作法卻不及使用溫度較高的室溫冷卻液,因為需要額外消耗電力來主動降低冷卻液溫度。
必須承認,低溫直接液冷確實具有性能優(yōu)勢。液溫較低意味著CPU和加速器將始終維持更低的工作溫度,從而能夠以更高的超頻水平(以及相應(yīng)的運行功率)運行更長時間。
人們真正擔心的,是采用直接液冷系統(tǒng)所節(jié)約的成本會被更高的系統(tǒng)負載所抵消,導(dǎo)致改造缺乏回報。
Uptime還指出,直接液冷很可能無助于可持續(xù)發(fā)展目標的實現(xiàn),而迫在眉睫的監(jiān)管要求則讓運營商們別無選擇。
原則上,每家主要云服務(wù)商和超大規(guī)模數(shù)據(jù)中心運營商在過去幾年間都做出了類似凈零排放的可持續(xù)發(fā)展承諾。至于微軟和谷歌等科技大廠,距離他們提出的首個主要里程碑就只剩下幾年時間了。
Uptime預(yù)測,如果數(shù)據(jù)中心運營商真想要兌現(xiàn)自己的承諾,就必將面臨一段艱難的時期。由于數(shù)據(jù)中心的部署區(qū)域并不一定擁有豐富的可再生能源供應(yīng),所以風能、太陽能和潮汐能等新能源類型的落地也往往于事無補。
不止如此,全球各國政府還一直在敦促各服務(wù)器農(nóng)場提升電力消耗與碳足跡的透明度。
去年九月通過的歐盟企業(yè)可持續(xù)發(fā)展報告指令,以及加州氣候企業(yè)數(shù)據(jù)責任法案等規(guī)定,將很快要求更多企業(yè)上報碳排放及業(yè)務(wù)運營引發(fā)的氣候相關(guān)風險。
Uptime報告稱,美國證券交易委員會(SEC)也開始重視這一問題,并要求大型上市企業(yè)在其季度報告中披露部分排放數(shù)據(jù)。
毫無疑問,一眾監(jiān)管要求中最為嚴苛的當數(shù)去年秋季發(fā)布的歐盟能源效率指令。這份文件列出了針對數(shù)據(jù)中心及其他IT與網(wǎng)絡(luò)運營商的報告要求。但需要強調(diào)的是,該指令旨在獲取關(guān)于使用模式的數(shù)據(jù),暫不對數(shù)據(jù)中心設(shè)施的運營方式做規(guī)范性約束。
雖然這些監(jiān)管要求的本意是好的,但Uptime通過調(diào)查發(fā)現(xiàn),參與調(diào)查的數(shù)據(jù)中心運營商中已經(jīng)開始實際追蹤碳排放等指標的比例只有不到一半。
多年以來,Uptime一直呼吁在數(shù)據(jù)中心領(lǐng)域廣泛引入數(shù)據(jù)驅(qū)動自動化方案。分析師們認為,2024年可能就是全面實現(xiàn)這個目標的時間節(jié)點。
問題的根源在于,盡管數(shù)據(jù)中心內(nèi)的硬件設(shè)備發(fā)生了根本性變化,但管理工具的發(fā)展卻陷入了停滯。大多數(shù)樓宇管理系統(tǒng)(BMS)和數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)軟件所能提供的自動化分析功能仍相對有限。
可以想見,只要在管理層面做出適度改進,運營商們即可顯著提高能效,同時降低后續(xù)監(jiān)管和排放上報要求的執(zhí)行門檻。此類系統(tǒng)運營自動化的典型用例,就是在需求低價階段調(diào)整環(huán)境系統(tǒng),避免浪費電力去冷卻那些根本沒有高強度運行的閑置系統(tǒng)。
Uptime還認為,更高級的自動化技術(shù)將基于由設(shè)施數(shù)據(jù)集訓(xùn)練而成的AI模型,以預(yù)測性方式靈活調(diào)整數(shù)據(jù)中心的運行模式。
將這種類似AIOps的功能應(yīng)用于數(shù)據(jù)中心整體當然好處多多,但Uptime分析師對于現(xiàn)有DCIM軟件供應(yīng)商的適應(yīng)能力卻持悲觀態(tài)度。相反,分析師們預(yù)計這些功能將率先誕生于新一代初創(chuàng)公司之手。Uptime目前正在關(guān)注六家處于不同發(fā)展階段的此類廠商,并認為他們的研發(fā)成果有望解決基礎(chǔ)設(shè)施的智能運營難題。
雖然報告沒有具體給出名稱,但我們懷疑其中之一很可能是Oxide Computer。該公司由前Sun Microsystems軟件工程師Bryan Cantrill與Joyent總裁Steve Tuck共同創(chuàng)立,專注于機架級計算場景,甚至內(nèi)部原研了基板管理控制器(BMC)以避免使用Aspeed等行業(yè)標準控制器。
一系列現(xiàn)實趨勢,特別是為了應(yīng)對AI需求持續(xù)增長而形成的算力密度提升,正推動運營商們投資建立由多個數(shù)據(jù)機房構(gòu)成的超大規(guī)模服務(wù)器園區(qū)。
根據(jù)Uptime的介紹,這些園區(qū)可能占地數(shù)百萬平方米,旨在滿足多租戶的電力與連接需求,而且往往會在設(shè)計之初就強調(diào)使用更多清潔能源。
此類新園區(qū)的核心特征就是實現(xiàn)千兆瓦級容量。作為設(shè)施規(guī)劃中的關(guān)鍵詞,這些新園區(qū)肯定不會在初期運行時就達到這樣的功率水平,但為了避免在生命周期內(nèi)遭遇擴展瓶頸,其很可能會預(yù)留出容量空間以承載后續(xù)設(shè)施。
去年,我們還看到不少更為激進的探索案例,包括利用氫燃料電池或小型模塊化反應(yīng)堆等新型能源來提供數(shù)千兆瓦電力。
而且除了共享供電設(shè)施這個優(yōu)勢之外,相互競爭的數(shù)據(jù)中心運營商也可能出于另一個理由而選擇彼此抱團,這就是設(shè)施之間的低延遲通信。
Uptime提出的這些數(shù)據(jù)中心(未來可能更適合稱其為數(shù)據(jù)城市)趨勢性預(yù)測將有助于降低托管與連接成本、提高設(shè)施彈性并提高運營可持續(xù)性。
這些預(yù)測最終能否落地還要留給時間來證明,但可以肯定的是,數(shù)據(jù)中心必將向著更大、更多、更費電的方向一路狂奔。