以超过56倍的NVIDIA V100尺寸迎接Cerebras WSE

虽然我们友好的芯片巨头正在争夺两位数的性能提升，但是一家名为Cerebras Systems的初创公司已经展示了一款原型，与目前最好的芯片：NVIDIA V100相比，它提供了绝对令人难以置信的晶体管数量增加5600%。这家初创公司将晶体管数量从211亿增加到2.1万亿，成功解决了其他人无法做到的关键技术挑战，从而成为世界上第一个晶圆级处理器。

Cerebras Systems的晶圆级引擎(WSE)：世界首个万亿级晶体管计数芯片

Cerebras Wafer Scale Engine是世界上第一款晶圆级处理器。您可能想知道为什么没有其他人做过如此明显的事情，原因是跨划线通信的关键技术挑战从未被其他任何人克服过。请参阅，目前的光刻设备旨在蚀刻晶圆上的微小处理器;他们不能在晶圆上制造整个处理器。这意味着划线将以某种方式存在，并且各个块必须能够以某种方式跨越这些线进行通信，这就是Cerebras已经解决的能够声称第一万亿晶体管数处理器的宝座。

Cerebras WSE占地面积46,225mm²，拥有1.2万亿个晶体管。所有内核均针对AI工作负载进行了优化，芯片功耗高达15 KW。由于所有这些动力也需要冷却，因此该冷却系统需要与其动力系统一样具有革命性。基于他们对垂直冷却的评论，我认为一个带有快速移动的氟利昂的浸入式冷却系统可能是唯一可以驯服这种野兽的东西。电力系统也需要非常强大。根据Cerebras的说法，该芯片比传统系统快1000倍，因为通信可以在划线上发生，而不是跳过环(互连，DIMM等)。

WSE包含400,000个稀疏线性代数(SLA)内核。每个核心都是灵活的，可编程的，并针对支撑大多数神经网络的计算进行了优化。可编程性确保内核可以在不断变化的机器学习领域中运行所有算法。WSE上的400,000个核心通过Swarm通信结构连接在一个带有100 Pb / s带宽的2D网格中。Swarm是一种巨大的片上通信结构，可提供突破性带宽和低延迟，而功耗仅为用于集成图形处理单元的传统技术的一小部分。它完全可配置;软件配置WSE上的所有核心，以支持培训用户指定模型所需的精确通信。对于每个神经网络，Swarm提供独特且优化的通信路径。

WSE具有18 GB的片上存储器，可在单个时钟周期内访问，并提供9 PB / s的存储器带宽。与领先的竞争对手相比，这是3000倍的容量和10,000倍的带宽。更多内核，更多本地内存可实现快速，灵活的计算，更低的延迟和更少的能源。

这将允许AI应用程序的大规模加速，并将训练时间从几个月减少到几个小时。这是真正的革命性，毫无疑问，假设他们能够履行承诺并尽快开始向客户提供。Cerebras WSE采用他们的16nm工艺在台积电300mm晶圆上制造，这意味着这是最先进的技术，只有NVIDIA等巨头背后的一个节点。当然，由于84个互连的模块可容纳超过400,000个核心，因此制造的过程无关紧要。

Cerebras WSE的产量和分级将非常有趣。例如，如果您将整个晶圆用作芯片，如果设计可以吸收缺陷，您将获得100%的产量，如果不能，则要获得0%。很明显，由于原型制造，该设计能够吸收缺陷。事实上，首席执行官表示，设计预计功能表面区域的缺陷约为1%至1.5%，微架构只需重新配置可用内核。此外，冗余核心放置在整个芯片中，以最大限度地降低性能损失。目前没有关于装箱的信息，但不言而喻，这是世界上最容易装箱的设计。

我们还被告知，该公司必须设计自己的制造和包装科学，因为目前没有任何工具可用于处理晶圆级处理器。不仅如此，必须重写软件以在单个处理器中处理超过1万亿个晶体管。Cerebras Systems显然是一家拥有令人难以置信的潜力的公司，看到他们在Hot Chips引起的飞溅，我们迫不及待地想看看这些Wafer Scale Engines的一些测试结果。

以超过56倍的NVIDIA V100尺寸迎接Cerebras WSE

相关推荐