支持1PetaFlop的Graphcore IPU机器M2000 1U刀片

总部位于布里斯托尔的Graphcore刚刚推出了其第二代IPU(智能处理单元)系统,该系统的目标用户是希望大规模进行AI处理的组织。在这些IPU机器M2000 1U刀片系统内部,有四个由台积电(TSMC)按照其最先进的7纳米工艺制造的新型Colossus MK2 GC200 IPU,每个封装1,472个内核,并且能够“进行一次机器智能计算的PetaFlop”。如果IPU机器M2000听起来像您想扩展的东西,则Graphcore推出了IPU-POD,它可以促进多达64,000个IPU的数据中心规模的系统,提供多达16个ExaFlops of Machine Intelligence计算。

让我们从更紧密地看一下今天所有发布的核心处理器Graphcore Colossus Mk2 GC200 IPU开始。可以在主图中看到该处理器的关键规格和功能,为了更清楚起见,我在下面列出了它们的项目符号。

每个IPU 594亿个晶体管,

台积电N7芯片的尺寸为823mm²,

1,472个IPU内核,每个都具有IPU内核和处理器内存,

8,832个独立的并行计算线程,

每个IPU 900MB SRAM,

每个IPU 47.5TB / s的内存带宽。

Graphcore表示,其第二代IPU是完全使用Poplar SDK构建的,以加快机器智能。新的IPU在实际测试中将其第一代芯片(2018)的性能提高了8倍。

Graphcore IPU-Machine M2000 1U刀片服务器在一个披萨盒大小的系统中使用四个GC200 IPU,以交付1个PetaFlop AI计算。该系统可为您提供5888个处理器内核和35328个独立线程,以及多达450GB的处理器外流交换内存。

升级到超级计算机规模的机器学习处理,Graphcore表示也涵盖了这一点。它的IPU POD64构建块可帮助您为大型AI / ML问题或多个并发工作负载部署数千台机器。Graphcore表示,它拥有自己的IPU-Fabric技术,可实现超高带宽,低延迟通信。

以上在学术上可能很有趣,但我敢打赌,您想知道包装7nm Graphcore Colossus Mk2 GC200 IPU的系统如何与Nvidia DGX A100系统相提并论?Graphcore分享了一张比较幻灯片,其中比较了EfficientNet-B4图像分类。对于相同的性能,它声称您只需要在Graphcore系统上投资25.9万美元,而不是在Nvidia DGX-A100服务器上投资300万美元。

可用性

IPU-Machine M2000和IPU-POD64系统可立即预订,从2020年第四季度开始全面量产。早期访问用户将能够通过Graphcore合作伙伴Cirrascale评估IPU-POD系统。

(0)
上一篇 2022年3月27日
下一篇 2022年3月27日

相关推荐