谷歌新的CloudTPUPods提供按需AI超级计算机
Google LLC今天通过推出Cloud TPU Pods扩展了其云平台,Cloud TPU Pods是针对需要大量计算能力的大型人工智能项目的新基础架构选项。
Cloud TPU Pod本质上是一组在搜索巨头的数据中心中运行的服务器机架。每个机架都装有Google的Tensor处理器单元(如图所示),这些芯片是为AI应用程序完全构建的定制芯片。该公司使用它们来支持广泛的内部服务,包括其搜索引擎和Google Translate。
到目前为止,在Google Cloud上,TPU只能单独租用。与公司通常用于AI项目的图形卡相比,它们具有许多优势,包括可能更高的速度。去年12月发布的基准测试表明,在执行某些类型的任务时,TPU的性能比Nvidia Corp.的硬件好19%。
单个Cloud TPU Pod包含256或1,024芯片,具体取决于配置。256芯片版本使用Google在2017年首次推出的第二代TPU,峰值速度为11.5 petaflops。1,024芯片的配置又使用了Google的第三代TPU,从而在高端提供了107.5 petaflops的性能。
这些数字使产品进入了超级计算机领域。单个petaflop等于每秒四千万次运算操作,而全球最强大的超级计算机Summit的峰值速度为200 petaflop。
诚然,在处理不如Summit正常处理的复杂数据时,Cloud TPU Pod只能达到最高速度,但是它们仍然强大。Google通过应用程序编程接口提供了硬件,这些接口使AI团队可以像对待单个TPU一样使用TPU。或者,开发人员可以在多个应用程序之间分配Pod的计算能力。
Google Cloud TPU的高级产品经理Zak Stone在博客中写道:“也可以使用称为“切片”的Cloud TPU Pod的较小部分。“我们经常看到ML团队在单个Cloud TPU设备(通常可用)上开发其初始模型,然后通过数据并行性和模型并行性扩展到逐渐扩大的Cloud TPU Pod切片。”
Cloud TPU Pod目前处于测试阶段。早期的客户包括eBay公司和总部位于犹他州的生物技术公司Recursion Pharmaceutical Inc.,后者使用该产品对具有潜在医疗价值的分子进行测试。