在這個星球上,英偉達毫無疑問是如今的AI之王,其推出的H100已經(jīng)被眾多科技企業(yè)搶購,而英偉達的營收和利潤也是節(jié)節(jié)攀升。但是在這個算力決定效率的今天,英偉達H100計算卡的算力還遠遠不夠,尤其是像Sora這樣的文生視頻的模型出來,更是對計算卡的算力提出了更高的要求,于是英偉達也適時地推出了下一代GPU,在AI性能上有著突飛猛進的進步,可以說拉了競爭對手整整一代。 

英偉達在今天凌晨舉辦GTC技術(shù)大會,在大會上, 英偉達正式宣布了Blackwell架構(gòu),同時也表示B200芯片將會是首款基于Blackwell打造的GPU。首先是制程架構(gòu),沒想到已經(jīng)不差錢的英偉達并沒有采用臺積電的3nm制程架構(gòu),而是繼續(xù)采用4nm制程,而B200則是基于兩顆芯片打造而成,總共擁有2080億個晶體管,借助NVlink 5.0進行數(shù)據(jù)傳輸,而NVLink 5.0在B200上可以實現(xiàn)1.8TB/s的數(shù)據(jù)傳輸,是上代的兩倍,而NVLink 5.0的理論速度可以達到10TB/s。 
毫無疑問B200芯片最大的特點就在于其強大的AI算力,老黃表示B200芯片的AI算力達到了20PFlops,遠超現(xiàn)在的H100的4PFLOPs,相當(dāng)于是現(xiàn)在的5倍性能,從而可以讓AI廠商訓(xùn)練更加復(fù)雜的模型,但是算傳統(tǒng)的算力,B200中單個芯片比H100高出25%,也就是說傳統(tǒng)算力B200是H100的2.5倍。 
此外老黃還發(fā)布了基于兩顆B200芯片以及Grace CPU打造的AI超算GB200,訓(xùn)練與推理LLM的性能比上代提升了30倍,簡直就是黑科技。英偉達表示按照AI廠商訓(xùn)練一個1.8萬億參數(shù)的大語言模型計算,原本需要8000塊Hooper GPU,同時功耗達到了15兆瓦,而現(xiàn)在廠商僅需2000塊GPU,功耗大約是4兆瓦,而在GPT-3的訓(xùn)練中,GB200的訓(xùn)練速度是H100的4倍,而推理速度則是H100的7倍。 
這還只是AI超算的一小部分,英偉達針對企業(yè)以及高性能計算用戶推出了GB200 NVL72服務(wù)器,最多擁有36個CPU和72個Blackwell GPU,以及專門定制的水冷解決方案,最高提供720PFLOPs的AI訓(xùn)練性能以及1440FLOPs的推理性能,此外一個機架上還包括18個GB200芯片以及9個NVLink交換機,最高實現(xiàn)27萬億個參數(shù)模型的訓(xùn)練,要知道現(xiàn)在的GPT-4模型訓(xùn)練參數(shù)大約為1.7萬億個,未來將會為AI帶來更大的可能。 
當(dāng)然GB200 NVL72服務(wù)器并不是Blackwell的極限,英偉達還將推出DGX GB200這樣的服務(wù)器集群,共有八個GB200 NVL72服務(wù)器,擁有288個CPU,576個GPU,內(nèi)存容量達到了240TB,F(xiàn)P4算力更是達到了11.5EFLOPs,實在是太過于恐怖,甚至英偉達還表示如果你覺得算力還不夠,未來英偉達DGX還可以進行不斷地擴展,借助Quantum-X800 InfiniBand以太網(wǎng)實現(xiàn)數(shù)萬顆GPU的互聯(lián)互通,讓AI訓(xùn)練性能達到前所未有的高度。 
目前包括微軟、谷歌、亞馬遜已經(jīng)表示將大量采購英偉達的新一代GB200服務(wù)器用于AI訓(xùn)練。目前英偉達還沒有公布GB200的具體價格,不過很有可能價格達到了十幾萬,而且現(xiàn)在這種AI神器完全就是買方市場,供不應(yīng)求,看起來英偉達的營收還將在2024年創(chuàng)下新高,畢竟在AI領(lǐng)域,老黃的領(lǐng)先程度實在是太大了。 |