AMD将为El Capitan超级计算机提供cpu

2020-03-05 14:31:48      点击:

去年秋天,由于Cray被惠普企业(Hewlett-Packard Enterprise)以1.6亿的价格收购,该公司宣布已由美国能源部选择另外两台基于处理器的Cray Shasta体系结构的亿亿级超级计算机。劳伦斯·利弗莫尔国家实验室(LLNL)的El Capitan超级计算机耗资约6亿美元,计划于2023年生产,基于下一代“热那亚” AMD EPYC CPU,每个CPU均集成有四个AMD第三代的下一代AMD Radeon GPU。无限面料。尽管细节仍然很匮乏,但我相信集成的四GPU加CPU方法可能会对NVIDIA构成潜在挑战,但请注意,要赶上NVIDIA在AI和HPC软件方面的领先地位,AMD可能需要花费数年的时间。

LLNL,Cray和AMD的发言人宣布,他们将开始部署该系统的El Capitan性能,该性能将使用模拟和机器学习来保护美国的核储备,并且将实现超过2 exaflops的速度,或比其快30%以上先前已公开。尽管该小组没有透露Xen 3 CPU中的节点数或内核数,但他们确实指出了通过AMD的内存一致性Infinity结构互连的4对1 GPU / CPU架构,然后每个节点都通过Cray Slingshot互连互连。HPE Cray的首席技术官史蒂夫·斯科特(Steve Scott)说,预期每秒2,000,000,000,000,000,000百万次操作的性能是当今排名第一的超级计算机(由IBM POWER CPU和NVIDIA GPU驱动的ORNL Summit)的性能的十倍,

AMD的Forrest Norrod表示,AMD EPYC和Radeon GPU将是标准产品,而不是为LLNL构建的特殊SKU。该团队除了声称拥有业界领先的每核和多核性能外,还具有关键特性之一,就是编程简单,而Infinity Fabric的共享内存一致性极大地提高了编程效率。这意味着在节点上运行的每个软件线程都可以将GPU和CPU内存上的所有四个HBM-3堆栈作为单个内存空间进行访问。我怀疑AMD固件将为HBM内存提供智能内存预取和管理。

首先,在这种对性能至关重要的系统中选择AMD充分说明了该公司的CPU和GPU路线图。这意味着DOE和Cray的工程师和管理层对AMD的未来和执行能力充满信心。

从技术上讲,将CPU和四个GPU结合在集成的缓存一致性结构上具有巨大的潜力,可以优化性能并最大程度地减少编程麻烦。与此形成鲜明对比的是NVIDIA,后者没有数据中心级CPU,而是使用其专有的NVLINK V2来互连GPU,这取决于与CPU的PCIe Gen 3 I / O互连要慢得多。IBM POWER确实支持NVLINK 2,但是POWER每天的相关性较低。因此,除非NVIDIA开始大量投资于ARM服务器CPU或收购IBM POWER,否则我不知道他们是否会如我所愿实现这一机遇。

这意味着,尽管AMD面临着巨大的软件挑战,但在中等规模(4-GPU节点)规模上可能会具有优势。我还要指出,由于包装和缓存的一致性,AMD的方法仅限于四GPU架构,并且将依靠Cray Slingshot大规模互连更多GPU。但是Slingshot绝对不会懈怠,它在64个200 Gbps端口上以每个方向惊人的12.8 Tb / s的速度提供了极高的带宽。虽然AI可以使用数千个GPU,但是四个GPU节点对于HPC来说是非常理想的,并且对于当今的DNN模型也可以很好地运行AI。

NVIDIA意识到即将到来的大规模面料争夺战,正在计划收购Mellanox,可以想像这可以为大规模GPU面料提供解决方案。但是,当然,没有CPU能够自然地“说” Mellanox InfiniBand,并且仍不清楚NVIDIA如何解决CPU-GPU瓶颈。英特尔方面已经与Habana Labs接轨,后者使用100Gb以太网和RDMA来满足相同的要求。以太网连接节点,而Infinity连接节点内的处理器。

最后,我要指出的是,AMD和NVIDIA(以及不久的将来)在构建AI专用ASIC的初创企业中都将享有优势:GPU可以处理高性能计算中常见的64位浮点密集型工作负载以及精度较低的AI工作负载。这就是NVIDIA在公共云中如此流行的原因之一。所有三台位于美国的Exa级超级计算机都将使用GPU(来自Intel和AMD)来处理HPC的繁重工作,同时还为AI提供性能提升。一些人,例如正在试验Cerebras的Argonne国家实验室,将在靠近其主要HPC系统的地方添加专用AI芯片来补充这些计算。

通过将其CPU和GPU实力结合到一个集成产品中,AMD正在使其自己在HPC中的吸引力, AMD将完成其工作,以构建渗透AI市场所需的AI软件生态系统,并且我们所有人都必须等待AMD,Intel和NVIDIA的下一代芯片,以确定AMD是否可以将其利用到领先市场中位置。

售前QQ客服
点击这里给我发消息
售后QQ客服
点击这里给我发消息
售前旺旺客服
点击这里给我发消息
售后旺旺客服
点击这里给我发消息
手机网站二维码