AlphabetInc 旗下的谷歌周二公布了其用于訓練人工智能模型的超級計算機的新細節(jié),稱該系統(tǒng)比 Nvidia Corp. 的同類系統(tǒng)更快、更節(jié)能。
谷歌設計了自己的定制芯片,稱為張量處理單元或 TPU。該公司 90% 以上的人工智能訓練工作都使用這些芯片,即通過模型提供數(shù)據的過程,使它們在諸如用類似人類的文本響應查詢或生成圖像等任務中發(fā)揮作用。
Google TPU 現(xiàn)在已經是第四代了。谷歌周二發(fā)表了一篇科學論文,詳細介紹了它如何使用自己定制開發(fā)的光開關將 4,000 多個芯片串在一起成為一臺超級計算機,以幫助連接各個機器。
改善這些連接已成為構建 AI 超級計算機的公司之間競爭的關鍵點,因為支持 Google 的 Bard 或 OpenAI 的 ChatGPT 等技術的所謂大型語言模型的規(guī)模已經爆炸式增長,這意味著它們太大而無法存儲在單個芯片上。
相反,這些模型必須分布在數(shù)千個芯片上,然后這些芯片必須協(xié)同工作數(shù)周或更長時間來訓練模型。谷歌的 PaLM 模型——其迄今為止最大的公開披露的語言模型——是通過在 4,000 臺芯片超級計算機中的兩臺超過 50 天的時間內將其拆分來訓練的。
谷歌表示,其超級計算機可以輕松地動態(tài)重新配置芯片之間的連接,有助于避免出現(xiàn)問題并進行調整以提高性能。
“電路切換使得繞過故障組件變得容易,”谷歌院士 Norm Jouppi 和谷歌杰出工程師大衛(wèi)帕特森在一篇關于該系統(tǒng)的博客文章中寫道。“這種靈活性甚至允許我們改變超級計算機互連的拓撲結構,以加速 ML(機器學習)模型的性能。”
雖然谷歌現(xiàn)在才公布有關其超級計算機的詳細信息,但自 2020 年以來,它一直在公司內部位于俄克拉荷馬州梅斯縣的數(shù)據中心上線。谷歌表示,初創(chuàng)公司 Midjourney 使用該系統(tǒng)訓練其模型,該模型在輸入幾句文字后生成新圖像。
谷歌在論文中表示,對于同等大小的系統(tǒng),其芯片比基于 Nvidia A100 芯片的系統(tǒng)快 1.7 倍,能效高 1.9 倍,后者與第四代 TPU 同時上市.