Nvidia透露了有关新GPU架构Ampere的初步细节。Volta的后继产品旨在在数据中心中用于AI培训和深度学习。在这种情况下,据说第一款安培GPU A100的功率是Volta的20倍。带有A100的第一款产品是DGX A100。
基于Ampere的第一款芯片A100具有重要的生命统计数据。根据Nvidia的数据,它由540亿个晶体管提供支持,是世界上最大的7纳米芯片,每秒可传输超过1个Peta运算。英伟达(Nvidia)声称,对于AI训练(单精度,32位浮点数)和AI推理(8位整数),A100的性能是等效Volta设备的20倍。用于高性能科学计算的同一设备可以使Volta的性能提高2.5倍(64位双精度)。A100的每个SM都带有64个FP32内核和32个FP64内核。A100视频卡使用PCI Express 4.0和Nvidia专有的NVLink接口进行超快速的相互通信,最高速度为600 GB / s。TDP设置为400瓦。您可以在照片上看到有六个HBM2堆栈,它们总共占了40 GB的视频内存。给定总内存带宽为1550 GB / s,即5120位内存总线。
A100添加了功能强大的新型第三代Tensor Core,可在V100之上提高吞吐量,同时增加了对DL和HPC数据类型的全面支持,以及新的Sparsity功能,可将吞吐量进一步提高一倍。A100中的新TensorFloat-32(TF32)Tensor Core操作为在DL框架和HPC中加速FP32输入/输出数据提供了一条简便的途径,其运行速度比V100 FP32 FMA操作快10倍,而稀疏性则快20倍。对于FP16 / FP32混合精度DL,A100 Tensor Core的性能是V100的2.5倍,而稀疏性则提高到5倍。新的Bfloat16(BF16)/ FP32混合精度Tensor Core操作以与FP16 / FP32混合精度相同的速率运行。Tensor Core加速了INT8,INT4和二进制,全面支持DL推理,其中A100稀疏INT8的运行速度比V100 INT8快20倍。对于HPC,
该GPU具有7nm Ampere GA100 GPU,具有6912个着色器处理器和432个Tensor内核。GPU尺寸为826mm2,具有108个流式多处理器x 64个着色器处理器。A100不是完全启用的芯片。Tesla A100具有40GB的HBM2e内存。
A100 GPU流式多处理器
基于NVIDIA Ampere架构的A100 Tensor Core GPU中的新流式多处理器(SM)大大提高了性能,并基于Volta和Turing SM架构中引入的功能,并增加了许多新功能。
A100第三代Tensor内核增强了操作数共享并提高了效率,并添加了功能强大的新数据类型,其中包括:
TF32 Tensor Core指令可加速FP32数据的处理
适用于HPC的IEEE兼容FP64 Tensor Core指令
BF16 Tensor Core指令的吞吐量与FP16相同
40 GB HBM2和40 MB L2缓存
为了满足其巨大的计算吞吐量,NVIDIA A100 GPU拥有40 GB的高速HBM2内存,具有一流的1.6 TB /秒的内存带宽–与Tesla V100相比增加了73%。此外,A100 GPU拥有更多的片上内存,其中包括40 MB的2级(L2)缓存-比V100大近7倍-以最大化计算性能。借助新的分区交叉开关结构,A100 L2缓存提供了V100的L2缓存读取带宽的2.3倍。为了优化容量利用率,NVIDIA Ampere体系结构提供了L2缓存驻留控件,供您管理要保留或从缓存中逐出的数据。A100还增加了计算数据压缩功能,以使DRAM带宽和L2带宽最多增加4倍,L2容量最多增加2倍。
A100 GPU硬件架构
NVIDIA GA100 GPU由多个GPU处理群集(GPC),纹理处理群集(TPC),流式多处理器(SM)和HBM2内存控制器组成。
GA100 GPU的完整实现包括以下单元:
每个完整GPU 8个GPC,8个TPC / GPC,2个SM / TPC,16个SM / GPC,128个SM
每个完整GPU 64个FP32 CUDA内核/ SM,8192个FP32 CUDA内核
每个完整GPU 4个第三代Tensor内核/ SM,512个第三代Tensor内核
6个HBM2堆栈,12个512位内存控制器
GA100 GPU的A100 Tensor Core GPU实现包括以下单元:
7个GPC,7个或8个TPC / GPC,2个SM / TPC,最多16个SM / GPC,108个SM
每个GPU 64个FP32 CUDA内核/ SM,6912个FP32 CUDA内核
每个GPU 4个第三代Tensor内核/ SM,432个第三代Tensor内核
5个HBM2堆栈,10个512位内存控制器