NVIDIA发布全新7nm安培GPU架构 A100加速卡亮相_行业新闻_新闻动态

NVIDIA发布全新7nm安培GPU架构 A100加速卡亮相

2020-05-22 11:13:50 点击：

5月14日晚，在GTC 2020线上发布会上，NVIDIA正式推出了代号为安培（Ampere）的GPU架构，CEO黄仁勋表示这是NVIDIA八代GPU史上最大的一次性能升级，并宣布了搭载该架构的首批产品DGX A100。首先提醒广大游戏玩家们，先不要兴奋，因为此次仅仅是公布新的GPU架构，首批产品也是面向HPC计算、AI人工智能运算等行业客户，对于个人消费者来说意义不大，大家最关注的全新7nm RTX游戏显卡还需要等等。

NVIDIA在2017年发布了基于Volta架构的GV100 GPU以及V100加速器，依靠Volta架构全新的张量核心和强大的GPU功能极大地扩展了其数据中心业务。时隔三年之后，NVIDIA希望Ampere能够成为Volta的继任者，以维持其数据中心业务的增长。

首款基于Ampere架构的GPU产品是Tesla A100加速卡，通过多项技术创新，Tesla A100加速卡不仅可以用于AI推理、AI训练，还可以用于科学仿真、AI对话、基因组、高性能数据分析、地震建模及财务计算等等。

安培（Ampere）架构基于TSMC 7nm工艺制程打造，新的A100核心面积达到826m㎡，晶体管数量达到542亿，是上代GV100的2.5倍。全新的A100加速卡采用108组SM单元，6912个CUDA核心，采用SXM4接口，非常适合在服务器中安装。A100的TDP达到了400W，相比V100最高350W进一步增加，因此核心频率略微降低，从V100的1.53GHz降低到了1.41GHz，甚至比Pascal的1.48GHz还低一点。

显存方面，A100配备最高40GB容量的HBM2显存，频率2.4Gbps，位宽5120bit，频率与位宽的同时提升让A100的核心带宽达到了1.6TB/s，相比V100的900GB/s提升巨大。

从表面参数来看，A100相比V100，常规的FP32、FP64性能提升并不算很大，由V100核心的15.7、7.8TFLOPS分别提升到了19.5、9.7TFLOPS。但要注意的是，A100支持多种高精度训练格式以及用于推理的较低精度格式，提供了远超Volta或Turing的性能，无需任何代码改变就可以让AI性能提升20倍。

在机器训练方面，NVIDIA新增了3种格式的支持：bfloat16、TF32和FP64。TF32（Tensor Float 32）是NVIDIA推出的一种较低精度的格式，目的是提供快速的FP32张量操作，NVIDIA认为这对于需要比FP16更大范围但不需要更高精度的AI需求很有用。

而在张量核心方面，Ampere有了重大创新，相比Volta架构的640个Tensor Core，A100核心的Tensor Core数量虽然减少到了432个，但是性能大幅增强，支持全新的TF32运算，浮点性能156TFLOPS，INT8浮点性能624TOPS，FP16性能312TFLOPS。

Ampere的张量内核（包括CUDA）支持替代16bit格式，TF32的实现可以更好的支持FP32数据上的张量操作。Ampere新的张量内核提供的每内核吞吐量比Volta/Turing更高，单个Ampere张量内核的FMA吞吐量是Volta张量内核的4倍，这也是虽然Ampere每个SM的张量内核总数减少了一半（从8个减少到4个），但FMA吞吐量仍然提高了2倍的原因。

另外，Ampere还引入了Multi-instance GPU（MIG）架构，旨在帮助客户充分利用大型GPU，特别是在推理运算的应用情况下。MIG是一种GPU划分机制，允许将一个A100划分为多达7个虚拟GPU，每个虚拟GPU都有自己专用的SM、L2缓存和内存控制器。与CPU分区和虚拟化一样，此系统的原理是为每个分区中运行的用户/任务提供专用资源和可预测的性能水平。从根本上讲，它是一种虚拟化技术，可以使云服务商和其他运营商更好地在A100上分配计算时间。

值得关注的还有一点，Ampere架构搭载了NVIDIA第三代NVLink互连技术。NVLink于2016年首次与Pascal P100 GPU一起推出，是NVIDIA专有的高带宽互连总线技术。相比Volta使用的NVLink 2，新的NVLink 3信号速率从NVLink 2的25.78Gbps提高到50Gbps，提升近一倍。上代的V100加速卡提供了6条NVLink 2总线，总带宽为300GB /秒，但此次A100提供了12条NVLink，总带宽翻倍，达到了600GB/秒。

此外，NVLink 3还可以提供更多的拓扑和链接选项，通过12个链接，单个GPU可以连接到更多交换机。NVIDIA还推出了新一代的NVSwitch，以支持NVLink 3更快的信号速率。

采用Tesla A100加速卡的计算系统DGX A100（DGX 100是NVIDIA全新的DGX服务器产品线）已经面向客户出货。DGX A100是一个完整的系统，包含8个Tesla A100加速器，15 TB的存储，双AMD Rome 7742 CPU（64c/个），1 TB的RAM和由Mellanox提供的网络控制器。NVIDIA表示，DGX A100系统单节点的峰值性能高达：INT8 10 PetaOPS、FP16 5 PFlops、TF32 2.5 PFlops、FP64 156 TFlops。

NVIDIA DGX A100超算官方售价19.9万美元，约合人民币141万元，相比2017年DGX-1V的价格高了近5万美元。

根据NVIDIA透漏，美国阿贡国家实验室（Argonne National Laboratory）已经开始部署DGX A100服务器。另外主流的云服务商，包括亚马逊AWS、Google Cloud、微软Azure在内的数家厂商也有订购DGX A100的意向。

（文中图片来自anandtech）

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

上一篇：十代酷睿好拍档技嘉AORUS Z490系列主板推荐 [2020-05-22]
下一篇：14nm的究极在哪里？Intel十代酷睿i9-10900K评测 [2020-05-22]