时隔两年,NVIDIA终于在GTC 2022公布新一代“Hopper”架构。当然了,GTC大会上发布的产品主要面向HPC高性能计算、AI人工智能,对应核心编号为“GH100”;英伟达同时还发布了基于新核心的“H100”加速计算卡、AI计算系统“DGX H100”。至于面向消费市场的RTX 40系列显卡,就需要等第三季度的发布。 

1 - WI97Y2D6QA1C.jpg


  与传闻采用5nm工艺不同,GH100核心采用从台积电定制的4nm工艺,使用CoWoS 2.5D晶圆级封装,单芯片集成多达800亿个晶体管。虽然官方没有公布核心数,但相关的规格已经被挖掘出来。

  完整版的GH100核心内建有8组GPC(图形处理器集群)、72组TPC(纹理处理器集群)、144组流式多处理器单元,每组流式多处理器单元有128个FP32 CUDA核心,总计18432个。核心内置576个第四代Tensor Core张量核心,匹配60MB二级缓存。 

2 - 0J31E3AWY6DO.jpg


  显存方面,Hopper核心支持六颗HBM3或者HBM2e,一共提供12组512-bit位宽的显存控制器,最高6144-bit的总位宽。GH100核心采用五颗HBM3显存,带来5120-bit位宽和80GB容量,总带宽高达3TB/s。此外,核心升级到PCIe 5.0通道、第四代NVLink,第四代NVLink的带宽提升至900GB/s,是PCIe 5.0的7倍,比A100多一半,整卡对外总带宽4.9TB/s。 

3 - BU688AM1L5Y7.jpg


  性能方面,GH100核心的FP64/FP32达到60TFlops(每秒60万亿次),FP16为2000TFlops(每秒2000万亿次),TF32为1000TFlops(每秒1000万亿次),三倍于A100;4000TFlops(每秒4000万亿次)的FP8六倍于A100。 

4 - C5W9ULUJDCK9.jpg


  H100计算卡采用SXM、PCIe 5.0两种形态,后者功耗高达700W,比A100多了整整300W。虽然还是8组GPC,但NVIDIA开启其中的66组TPC(每组GPC屏蔽一组TPC),合计132组纹理处理器集群,总计16896个CUDA核心、528个Tensor核心和50MB二级缓存。 

5 - 43AVLK31P466.jpg


  与上代DGX A100相同,DGX H100系统同样集成八颗H100芯片,搭配两颗支持PCIe 5.0(可能为英特尔Sapphire Rapids四代可扩展至器),总计6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。DGX H100系统配备Connect TX-7网络互连芯片,采用台积电7nm工艺,拥有800亿个晶体管、400G GPUDirect吞吐量、400G加密加速和4.05亿/秒信息率。

  性能方面,H100计算卡的AI算力32PFlops(每秒3.2亿亿次),480TFlops(每秒480万亿次)的FP64浮点算力、每秒1.6PFlops(每秒1.6千万亿次)的FP16算力、3.2PFlops(每秒3.2千亿次)的FP8算力,分别是上代DGX A100的3倍、3倍、6倍,而且新增支持网络内计算,性能3.6TFlops。 

6 - VI3HE8U49UUX.jpg


  DGX H100是最小的计算单元,为了扩展提升单元间的通讯,NVIDIA全新设计了NVLink Swtich互连系统,最多可连接32个节点、256颗H100芯片,官方将其称为“DGX POD”。在这套系统内,还有20.5TB HBM3内存,总带宽768TB/s,AI性能高达颠覆性的1EFlops(100亿亿亿次每秒),实现百亿亿次计算。 

7 - 100L58V83M78.jpg


  编辑点评:在时隔两年之后,NVIDIA终于推出全新一代的Hopper架构核心,首先自然是应用于HPC高性能计算、加速计算卡等专业领域。从官方公布的性能来看,Hopper架构的性能较Ampere有大幅提升,也让GeForce显卡更值得期待。

  按照往年的节奏,NVIDIA将会在第三季度推出面向游戏玩家的GeForce显卡,普遍认为将命名为RTX 40系列,采用Hopper架构,GDDR6或GDDR7显存。对于普通玩家来说,没有经过“挖矿”锻炼的显卡,可能会减少不必要的风险,这也是为什么游戏玩家更关注RTX 40系列的原因。





管理登录|网站声明|1999-2022|电脑小百科 ( 蜀ICP备15008940号-1 )

返回顶部