微軟在 1 年向 OpenAI 投資 2019 億美元后,為 OpenAI 建造了一臺(tái)超級(jí)計(jì)算機(jī)。挑戰(zhàn)在于訓(xùn)練大量稱為模型的人工智能程序,這需要長(zhǎng)時(shí)間強(qiáng)大的云計(jì)算服務(wù)。為了應(yīng)對(duì)這一挑戰(zhàn),微軟不得不將數(shù)以萬(wàn)計(jì)的英偉達(dá)公司的A100圖形芯片串在一起,并改變服務(wù)器在機(jī)架上的放置方式,以防止停電。
超級(jí)計(jì)算機(jī)使 OpenAI 能夠發(fā)布 ChatGPT,這是一個(gè)病毒式聊天機(jī)器人,在 1 年 2020 月上市后的幾天內(nèi)吸引了超過(guò) <> 萬(wàn)用戶。微軟現(xiàn)在使用相同的資源來(lái)訓(xùn)練和運(yùn)行自己的大型人工智能模型,包括上個(gè)月推出的新Bing搜索機(jī)器人,并將該系統(tǒng)出售給其他客戶。
訓(xùn)練一個(gè)龐大的人工智能模型需要在一個(gè)地方容納大量的連接圖形處理單元,就像微軟組裝的人工智能超級(jí)計(jì)算機(jī)一樣。一旦模型投入使用,回答用戶提出的所有查詢需要稍微不同的設(shè)置,微軟部署圖形芯片進(jìn)行推理,但這些處理器在地理上分散在公司的60多個(gè)數(shù)據(jù)中心區(qū)域。
微軟正在為AI工作負(fù)載添加最新的Nvidia圖形芯片,H100和最新版本的Nvidia的Infiniband網(wǎng)絡(luò)技術(shù),以更快地共享數(shù)據(jù)。新的Bing仍處于預(yù)覽階段,微軟逐漸從候補(bǔ)名單中增加了更多用戶。致力于此的團(tuán)隊(duì)每天舉行一次會(huì)議,以弄清楚如何快速將更多的計(jì)算能力聯(lián)機(jī)并解決出現(xiàn)的問(wèn)題。
維修人員必須應(yīng)對(duì)電纜橋架的短缺,因此他們?cè)O(shè)計(jì)了一種新的電纜橋架,微軟可以自己制造或找到購(gòu)買(mǎi)的地方。他們還致力于在世界各地的現(xiàn)有數(shù)據(jù)中心中盡可能多地?cái)D壓服務(wù)器,這樣他們就不必等待新建筑。微軟必須考慮機(jī)器的放置位置和電源的位置,以防止停電。