微软为AI工作负载扩展Azure的GPU处理选项

微软正在从硬核PC游戏玩家那里寻求线索，并升级其图形硬件。但是，这家软件巨头没有将引人注目的视觉效果投放到计算机显示器上，而是在云上加速了人工智能(AI)工作负载。

该公司本周宣布，将Microsoft的GPU辅助虚拟机用于其AI应用程序的Azure客户将于今年晚些时候拥有更新，性能更快的选项。

微软利用计算机图形硬件制造商Nvidia的最新GPU创新技术，宣布了新的ND系列Azure虚拟机，并承诺将在当前产品上大幅度提高性能。

像Google和其他使用图形处理单元(GPU)来驱动人工智能的公司一样，微软已经采用了该技术来加速其云上的机器学习，深度学习和其他AI工作负载。GPU非常适合这些任务，这要归功于大规模并行的微体系结构，这些体系结构适合于AI应用程序，这些应用程序在本质上也通常是并行的。

由基于新Pascal架构的Nvidia Tesla P40 GPU驱动的这个新系列非常适合培训和推理，” Microsoft Azure计算主管Corey Sanders在5月8日发布的声明中说。“这些实例为使用CNTK [Microsoft Cognitive Toolkit]，TensorFlow，Caffe和其他框架的AI工作负载提供了比上一代FP32(单精度浮点运算)高出2倍的性能。”

除了提高性能外，新虚拟机还为具有更大AI野心的客户提供了更大的扩展空间。

“ ND系列还提供了更大的GPU内存大小(24GB)，使客户能够适应更大的神经网络模型，” Sanders继续说道。“最后，像我们的NC系列一样，ND系列将提供RDMA和InfiniBand连接，因此您可以运行跨越数百个GPU的大规模培训工作。” InfiniBand是一种高性能，低延迟的网络标准，受到高性能计算(HPC)环境的青睐。

ND系列虚拟机还可用于加速某些非AI，HPC工作负载。候选者包括DNA测序，蛋白质分析和图形绘制，Sanders补充说。

当前的NC系列产品正在升级。桑德斯称，新产品很快被称为NCv2，它们由Nvidia Tesla P100 GPU提供支持，其计算性能是其前代产品的两倍。

此博客文章中提供了有关即将推出的ND系列和NCv2系列虚拟机的技术规范。

同时，随着基于云的AI解决方案的业务需求升温，微软面临着更加激烈的竞争。

今年2月，Google宣布允许某些地区的云客户将Nvidia GPU附加到其Google Compute Engine虚拟机。一个明显的好处是，客户不再需要构建或获取自己的GPU集群并在其数据中心为其腾出空间。另一个是使用该系统的分布式方法训练机器学习模型所需的时间大大缩短。

去年秋天，亚马逊开始提供带有多达16个Nvidia GPU的新EC2(弹性计算云)实例。该公司还推出了一个新的深度学习AMI(亚马逊机器映像)，其中包含Caffe，MXNet，TensorFlow，Theano和Torch框架。

微软为AI工作负载扩展Azure的GPU处理选项

相关推荐