中文字幕无码系列专区|92国产精品午夜福利|久久久综合九色综合88|国产天天看免费无码在线|国产精品黄国产在线综合网|韩国三级在线视频一区二区|伊人久久大香线蕉AV网址|国产精品美女一区二区三区不卡污

北京數(shù)據(jù)家科技股份有限公司-數(shù)據(jù)家,idc官網(wǎng),算力,裸金屬,高電機(jī)房,邊緣算力,云網(wǎng)合一,北京機(jī)房 北京數(shù)據(jù)家科技股份有限公司-數(shù)據(jù)家,idc官網(wǎng),算力,裸金屬,高電機(jī)房,邊緣算力,云網(wǎng)合一,北京機(jī)房

新聞中心

數(shù)據(jù)家,idc官網(wǎng),算力,裸金屬,高電機(jī)房,邊緣算力,云網(wǎng)合一,北京機(jī)房,北京云計(jì)算,北京邊緣計(jì)算,北京裸金屬服務(wù)器,北京數(shù)據(jù)服務(wù)器,北京GPU服務(wù)器,高算力服務(wù)器,數(shù)據(jù)機(jī)房相關(guān)技術(shù)新聞最新報(bào)道

Meta兩個(gè)豪華AI集群曝光:每個(gè)配備2.4萬(wàn)塊英偉達(dá)H100,價(jià)值幾十億

2024-03-14 12:23:29

3月13日消息,美國(guó)時(shí)間周二,F(xiàn)acebook母公司Meta公布了兩個(gè)數(shù)據(jù)中心規(guī)模新集群的技術(shù)細(xì)節(jié),它們各自擁有超過(guò)2.4萬(wàn)個(gè)GPU,并在硬件、網(wǎng)絡(luò)、存儲(chǔ)、設(shè)計(jì)、性能和軟件等方面上,專為支持大型語(yǔ)言模型如Llama 3進(jìn)行訓(xùn)練而深度優(yōu)化。

idc網(wǎng),算力,裸金屬,高電機(jī)房,邊緣算力,云網(wǎng)合一,北京機(jī)房,北京云計(jì)算,北京邊緣計(jì)算,北京裸金屬服務(wù)器,北京數(shù)據(jù)服務(wù)器,北京GPU服務(wù)器,高算力服務(wù)器,數(shù)據(jù)機(jī)房這兩個(gè)新集群基于Meta先前研究超級(jí)集群(RSC)的成功。RSC自2022年啟用以來(lái),已展現(xiàn)出強(qiáng)大的計(jì)算力。

在硬件配置方面,每個(gè)集群都配備了24576個(gè)英偉達(dá)Tensor Core H100 GPU(每個(gè)數(shù)萬(wàn)美元),與之前使用的16000個(gè)英偉達(dá)A100 GPU相比有了明顯提升,這將極大地促進(jìn)自然語(yǔ)言處理、語(yǔ)音識(shí)別和圖像生成等人工智能研究和開(kāi)發(fā)工作。

Meta表示,這種升級(jí)不僅在數(shù)量上有所增加,其性能上的躍進(jìn)也將支持更大、更復(fù)雜的模型,為生成式人工智能產(chǎn)品的開(kāi)發(fā)鋪平道路。

Meta計(jì)劃在2024年底之前,將其人工智能基礎(chǔ)設(shè)施擴(kuò)大到高達(dá)35萬(wàn)個(gè)H100 GPU。目標(biāo)是擁有相當(dāng)于近60萬(wàn)個(gè)H100 GPU的算力。

圖片來(lái)源:Meta官方博客

雖然兩個(gè)新集群的GPU數(shù)量相同,但它們?cè)诰W(wǎng)絡(luò)基礎(chǔ)設(shè)施方面各有差異,均支持400 Gbps端點(diǎn)之間的互聯(lián)。其中一個(gè)集群采用了基于Arista 7800交換機(jī)配合Wedge400和Minipack2 OCP機(jī)架交換機(jī)的遠(yuǎn)程直接內(nèi)存訪問(wèn)(RDMA)和融合以太網(wǎng)(RoCE)網(wǎng)絡(luò)解決方案,而另一個(gè)則應(yīng)用了英偉達(dá)Quantum2 InfiniBand網(wǎng)絡(luò)架構(gòu)。

值得一提的是,兩個(gè)集群均基于Meta自研的開(kāi)放GPU硬件平臺(tái)Grand Teton構(gòu)建,這是公司為支撐大型AI工作負(fù)載而開(kāi)發(fā)的GPU基礎(chǔ)硬件平臺(tái)。作為Zion-EX平臺(tái)的后續(xù)產(chǎn)品,Grand Teton在主機(jī)到GPU的帶寬、計(jì)算及數(shù)據(jù)網(wǎng)絡(luò)帶寬、以及功率包絡(luò)等方面都實(shí)現(xiàn)了顯著的增強(qiáng)。

此外,這些集群充分利用了Meta專為Grand Teton等方案設(shè)計(jì)的Open Rack電源和機(jī)架架構(gòu),提高了數(shù)據(jù)中心的靈活性。

Meta的Open Rack v3硬件設(shè)計(jì)引入了一個(gè)靈活的機(jī)架配置方案。與傳統(tǒng)的固定母線設(shè)計(jì)相比,它允許在機(jī)架中的任意位置安裝電源架,從而使機(jī)架配置更加靈活。

在建設(shè)這些新集群時(shí),Meta特別關(guān)注了每臺(tái)服務(wù)器吞吐量、機(jī)架數(shù)量減少及能源效率之間的平衡。通過(guò)對(duì)機(jī)架內(nèi)服務(wù)器數(shù)量的定制化設(shè)計(jì),Meta確保了這些集群在提供高性能的同時(shí),也達(dá)到了能源的高效利用。

在存儲(chǔ)技術(shù)上,這些集群運(yùn)用了Linux Filesystem中的Userspace API,并得到了Meta自家Tectonic分布式存儲(chǔ)方案的加持。與此同時(shí),Meta還與Hammerspace合作,一道開(kāi)發(fā)了并行網(wǎng)絡(luò)文件系統(tǒng)(NFS)。

兩個(gè)集群均基于配備了最新高容量E1.S SSD的YV3 Sierra Point服務(wù)器平臺(tái)。為了優(yōu)化網(wǎng)絡(luò)利用率,Meta進(jìn)行了網(wǎng)絡(luò)拓?fù)浜吐酚傻恼{(diào)整,并部署了英偉達(dá)的集體通信庫(kù)(NCCL)。NCCL是一套針對(duì)英偉達(dá)GPU和網(wǎng)絡(luò)進(jìn)行優(yōu)化的標(biāo)準(zhǔn)通信例程庫(kù)。

Meta還在積極推進(jìn)其PyTorch基礎(chǔ)AI框架的發(fā)展,以應(yīng)對(duì)數(shù)十萬(wàn)GPU的訓(xùn)練需求。Meta的技術(shù)項(xiàng)目經(jīng)理凱文·李(Kevin Lee)、生產(chǎn)網(wǎng)絡(luò)工程師阿迪·甘吉迪(Adi Gangidi)以及生產(chǎn)工程總監(jiān)馬修·奧爾德姆(Mathew Oldham)在最新博客中共同表達(dá)了公司的技術(shù)愿景和戰(zhàn)略。他們強(qiáng)調(diào),Meta將致力于人工智能軟件和硬件的開(kāi)放式創(chuàng)新,啟動(dòng)人工智能聯(lián)盟,建立一個(gè)開(kāi)放的生態(tài)系統(tǒng),“為人工智能開(kāi)發(fā)帶來(lái)透明度、審查和信任,并帶來(lái)每個(gè)人都能從中受益的創(chuàng)新,這些創(chuàng)新以安全和責(zé)任為首要考慮因素”。

這篇博文繼續(xù)強(qiáng)調(diào):“面對(duì)未來(lái),我們意識(shí)到昨天和今天有效的方法可能無(wú)法滿足明天的需求。因此,Meta將不斷評(píng)估和改進(jìn)其基礎(chǔ)設(shè)施的各個(gè)方面,從物理和虛擬層到軟件層等。我們的目標(biāo)是創(chuàng)建一個(gè)既靈活又可靠的系統(tǒng),以支撐快速發(fā)展中的新模型和研究工作?!?/p>