新聞中心

數(shù)據(jù)家,idc官網(wǎng),算力,裸金屬,高電機(jī)房,邊緣算力,云網(wǎng)合一,北京機(jī)房,北京云計(jì)算,北京邊緣計(jì)算,北京裸金屬服務(wù)器,北京數(shù)據(jù)服務(wù)器,北京GPU服務(wù)器,高算力服務(wù)器,數(shù)據(jù)機(jī)房相關(guān)技術(shù)新聞最新報(bào)道

當(dāng)前位置：首頁(yè) > 新聞中心 > 新聞詳情

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人馬打造，喊話奧特曼：你們也太慢了

2024-02-26 13:54:55

太快了太快了。

一夜間，大模型生成已經(jīng)沒(méi)什么延遲了……來(lái)感受下這速度。

，時(shí)長(zhǎng)00:06

眼花繚亂了吧，生成速度已經(jīng)接近每秒500 tokens。

還有更直觀的列表對(duì)比，速度最高能比以往這些云平臺(tái)廠商快個(gè)18倍吧。

（這里面還有個(gè)熟悉的身影：Lepton）

網(wǎng)友表示：這速度簡(jiǎn)直就是飛機(jī)vs走路。

值得一提的是，這并非哪家大公司進(jìn)展——

初創(chuàng)公司Groq，谷歌TPU團(tuán)隊(duì)原班人馬，基于自研芯片推出推理加速方案。（注意不是馬斯克的Grok）

據(jù)他們介紹，其推理速度相較于英偉達(dá)GPU提高了10倍，成本卻降低到十分之一。

換言之，任何一個(gè)大模型都可以部署實(shí)現(xiàn)。

目前已經(jīng)能支持Mixtral 8x7B SMoE、Llama 2的7B和70B這三種模型，并且可直接體驗(yàn)Demo。

他們還在官網(wǎng)上喊話奧特曼：

你們推出的東西太慢了……

每秒接近500tokens

既然如此，那就來(lái)體驗(yàn)一下這個(gè)號(hào)稱「史上最快推理」的Groq。

先聲明：不比較生成質(zhì)量。

就像它自己說(shuō)的那樣，內(nèi)容概不負(fù)責(zé)。

目前，演示界面上有兩種模型可以選擇。

就選擇Mixtral 8x7B-32k和GPT-4同擂臺(tái)對(duì)比一下。

提示詞：你是一個(gè)小學(xué)生，還沒(méi)完成寒假作業(yè)。請(qǐng)根據(jù)《星際穿越》寫(xiě)一篇500字的讀后感。

結(jié)果啪的一下，只需1.76秒就生成了一長(zhǎng)串讀后感，速度在每秒478Tokens。

不過(guò)內(nèi)容是英文的，以及讀后感只有三百六十多字。但后面也趕緊做了解釋說(shuō)考慮到是小學(xué)生寫(xiě)不了那么多……

至于GPT-4這邊的表現(xiàn)，內(nèi)容質(zhì)量自然更好，也體現(xiàn)了整個(gè)思路過(guò)程。但要完全生成超過(guò)了三十秒。單是讀后感內(nèi)容的生成，也有近二十秒鐘的時(shí)間。

除了Demo演示外，Groq現(xiàn)在支持API訪問(wèn)，并且完全兼容，可直接從OpenAI的API進(jìn)行簡(jiǎn)單切換。

可以免費(fèi)試用10天，這期間可以免費(fèi)獲得100萬(wàn)Tokens。

目前支持Llama 2-70B 和7B， Groq可以實(shí)現(xiàn)4096的上下文長(zhǎng)度，還有Mixtral 8x7B這一型號(hào)。當(dāng)然也不局限于這些型號(hào)，Groq支持具體需求具體定制。

價(jià)格方面，他們保證：一定低于市面上同等價(jià)格。

不過(guò)可以看到，每秒500tokens似乎還不是終極速度，他們最快可以實(shí)現(xiàn)每秒750Tokens。

谷歌TPU團(tuán)隊(duì)創(chuàng)業(yè)項(xiàng)目

Groq是集軟硬件服務(wù)于一體的大模型推理加速方案，成立于2016年，創(chuàng)始團(tuán)隊(duì)中很多都是谷歌TPU的原班人馬。

公司領(lǐng)導(dǎo)層的10人中，有5人都曾有谷歌的工作經(jīng)歷，3人曾在英特爾工作。

創(chuàng)始人兼CEO Jonathan Ross，設(shè)計(jì)并實(shí)現(xiàn)了第一代TPU芯片的核心元件，TPU的研發(fā)工作中有20%都由他完成。

Groq沒(méi)有走GPU路線，而是自創(chuàng)了全球首個(gè)L（anguage）PU方案。

LPU的核心奧義是克服兩個(gè)LLM瓶頸——計(jì)算密度和內(nèi)存帶寬，最終實(shí)現(xiàn)的LLM推理性能比其他基于云平臺(tái)廠商快18倍。

據(jù)此前他們介紹，英偉達(dá)GPU需要大約10焦耳到30焦耳才能生成響應(yīng)中的tokens，而 Groq 設(shè)置每個(gè)tokens大約需要1焦耳到3焦耳。

因此，推理速度提高了10倍，成本卻降低了十分之一，或者說(shuō)性價(jià)比提高了100倍。

延遲方面，在運(yùn)行70B模型時(shí)，輸出第一個(gè)token時(shí)的延時(shí)僅有0.22秒。

甚至為了適應(yīng)Groq的性能水平，第三方測(cè)評(píng)機(jī)構(gòu)ArtificialAnalysis還專門調(diào)整了圖表坐標(biāo)軸。

據(jù)介紹，Groq的芯片采用14nm制程，搭載了230MB大SRAM來(lái)保證內(nèi)存帶寬，片上內(nèi)存帶寬達(dá)到了80TB/s。

算力層面，Gorq芯片的整型（8位）運(yùn)算速度為750TOPs，浮點(diǎn)（16位）運(yùn)算速度則為188TFLOPs。

Groq主要基于該公司自研的TSP架構(gòu)，其內(nèi)存單元與向量和矩陣深度學(xué)習(xí)功能單元交錯(cuò)，從而利用機(jī)器學(xué)習(xí)工作負(fù)載固有的并行性對(duì)推理進(jìn)行加速。

在運(yùn)算處理的同時(shí)，每個(gè)TSP都還具有網(wǎng)絡(luò)交換的功能，可直接通過(guò)網(wǎng)絡(luò)與其他TSP交換信息，無(wú)需依賴外部的網(wǎng)絡(luò)設(shè)備，這種設(shè)計(jì)提高了系統(tǒng)的并行處理能力和效率。

結(jié)合新設(shè)計(jì)的Dragonfly網(wǎng)絡(luò)拓?fù)?，hop數(shù)減少、通信延遲降低，使得傳輸效率進(jìn)一步提高；同時(shí)軟件調(diào)度網(wǎng)絡(luò)帶來(lái)了精確的流量控制和路徑規(guī)劃，從而提高了系統(tǒng)的整體性能。

Groq支持通過(guò)PyTorch、TensorFlow等標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)框架進(jìn)行推理，暫不支持模型訓(xùn)練。

此外Groq還提供了編譯平臺(tái)和本地化硬件方案，不過(guò)并未介紹更多詳情，想要了解的話需要與團(tuán)隊(duì)進(jìn)行聯(lián)系。

而在第三方網(wǎng)站上，搭載Groq芯片的加速卡售價(jià)為2萬(wàn)多美元，差不多15萬(wàn)人民幣。

idc網(wǎng),算力,裸金屬,高電機(jī)房,邊緣算力,云網(wǎng)合一,北京機(jī)房,北京云計(jì)算,北京邊緣計(jì)算,北京裸金屬服務(wù)器,北京數(shù)據(jù)服務(wù)器,北京GPU服務(wù)器,高算力服務(wù)器,數(shù)據(jù)機(jī)房

它由知名電子元件生產(chǎn)商莫仕（molex）旗下的BittWare代工，同時(shí)該廠也為英特爾和AMD代工加速卡。

目前，Groq的官網(wǎng)正在招人。

技術(shù)崗位年薪為10萬(wàn)-50萬(wàn)美元，非技術(shù)崗位則為9萬(wàn)-47萬(wàn)美元。

“目標(biāo)是三年超過(guò)英偉達(dá)”

除此之外，這家公司還有個(gè)日常操作是叫板喊話各位大佬。

當(dāng)時(shí)GPTs商店推出之后，Groq就喊話奧特曼：用GPTs就跟深夜讀戰(zhàn)爭(zhēng)與和平一樣慢……陰陽(yáng)怪氣直接拉滿~

馬斯克也曾被它痛斥，說(shuō)“剽竊”自己的名字。

在最新討論中，他們疑似又有了新操作。

一名自稱Groq工作人員的用戶與網(wǎng)友互動(dòng)時(shí)表示，Groq的目標(biāo)是打造最快的大模型硬件，并揚(yáng)言：

三年時(shí)間內(nèi)趕超英偉達(dá)。

這下好了，黃院士的核武器有新的目標(biāo)了。

參考鏈接：
[1]https://wow.groq.com/
[2]https://news.ycombinator.com/item?id=39428880?