
谷歌 昨(6)日公布用于云端的Cloud TPU v4技术细节,号称效能更快,且更节能。
TPU v4是谷歌于2021年宣布,专门用于执行机器学习的AI芯片,是谷歌第5代谷歌特殊领域架构(domain specific architecture,DSA)及第3代用于ML模型的超级计算机平台。 谷歌 TPU架构长Norm Jouppi及谷歌杰出工程师David Patterson本周在一篇论文中说明TPUv4技术细节 。 谷歌工程师指出,拜互连技术及特殊领域加速器(domain specific accelerator,DSA)技术之赐,TPUv4的机器学习系统(ML)效能扩充速度较前一代TPUv3提升近10倍,能源效率则为现代ML DSA的2、3倍,而二氧化碳排放则比一般本地部署的数据中心减少20倍,是执行大型语言模型的最理想平台。
它每芯片效能是TPU v3 2.1倍,每瓦效能提高2.7倍。 意谓着TPU v4芯片用电率仅200瓦。 每颗TPU v4包含SparseCores,SparseCores为一种数据流处理器,可使深度学习模型嵌入(embeddings)执行速度提升5到7倍,但TPU v4裸晶(die)面积仅5%。 藉由Sparsecores,搭载TPUv4的系统可用于执行搜索、广告、YouTube和谷歌 Play的AI内容推荐。
TPU v4也是第一个部署可配置OCS的超级计算机平台。 OCS可动态配置互连拓墣,以提升扩充性、可用性、利用率、模块化、安全、效能及用电效率。 和Infiniband相比,OCS及其底层光纤组件,系统成本不到5%,用电小于3%。
TPU v4从2020年用于谷歌 Cloud,搭载TPUv4的超级计算机提供Exascale等级的ML效能,4096个芯片以谷歌自有光纤回路交换(optical circuit switch,OCS)互联。
此外,谷歌宣称,以类似大小的系统来看,使用TPU v4的系统比Graphcore IPU Bow的系统快4.3到4.5倍,也比搭载Nvidia A100的系统快1.2到1.7倍,用电却少1.3到1.9倍。 而谷歌 Cloud使用TPU v4,和本地部署数据中心的当代DSA相较,耗能量少5倍,排碳量更是仅1/20。
谷歌 Cloud去年宣布其位于俄克拉荷马州机器学习丛集使用TPU v4,总和运算效能峰值达9 exaflops,谷歌声称是已知最大的,且使用90%非碳能源的ML运算中枢。 谷歌并宣布,提供AI文字生成图片服务的AI初创Midjourney已经利用Cloud TPUv4来训练其第4版模型。