电脑小百科

查看: 39

从图灵开始的追光

[复制链接]

发表于 2019-10-30 20:22
英伟达每一代显卡的架构都有着响亮的代号,比如“费米”(Fermi,以Geforce 400M/500M系列显卡为主)、“开普勒”(Kepler,以Geforce 600M/700M系列显卡为主)、“麦克斯韦”(Maxwell,以Geforce 800M/900M系列显卡为主)“帕斯卡”(Pascal,以Geforce GTX10系列显卡为主),GeForce RTX20系列显卡的架构的代号为“图灵”(Turing),而它就是笔记本追光之梦开始的地方(图2)。
1 - 1572418902275.jpg
浅析图灵架构
和我们熟悉的帕斯卡等英伟达早期显卡架构相比,图灵在架构底层上就出现了变化——它除了传统的GPC(图形处理簇)、TPC(纹理处理簇)、SM(流式多处理器)和内存控制器以外,还加入了全新的“RT核心”和“Tensor核心”两个单元,而它们就是实现光线追踪技术(RayTracing,简称RTX)的根本(图3)。
2 - 1572418903163.jpg
其中,“RT核心”支持微软的DirectX Raytracing、英伟达OptiX、Vulkan等图形接口,能在图形渲染过程中实时跟踪物体和环境的光线,准确进行光线反射和折射、全局照明、物理阴影的绘制,从而让实时的游戏场景可以渲染出媲美真实电影级别的光影质感成为了可能(图4)。以RTX2080Ti为例,它集成了68个RT核心,每秒可计算100亿条光线,其RTX-OPS性能是GTX1080Ti的10倍。
3 - 1572418902848.jpg
“Tensor核心”主要负责深度学习,它在图像处理中最典型的应用案例就是DLSS(深度学习超级采样抗锯齿,可以将图形因角度或分辨率等因素产生的误差通过深度学习进行优化),在提供与TAA抗锯齿技术几乎相同画质的同时几乎不会影响到游戏性能(图5)。按照英伟达的说法,RTX2080 DLSS的性能较GTX1080 TAA提升了100%。
4 - 1572418902969.jpg
图灵架构改用了台积电12nm FFN工艺,并对流式多处理器(Streaming Multiprocessor,简称SM)进行了革新,每个流处理器在原有FP32浮点单元的基础上新添了名为INT32的整数计算单元,可以和浮点数据路径同时执行。同时,图灵的SM设计还为共享内存、L1和纹理缓存引入了全新的统一缓存架构,结合INT32的加盟可让每个CUDA核心的性能较帕斯卡提升巨大(图6)。
5 - 1572418904699.jpg
此外,图灵架构还支持名为NGX的深度学习框架,以及包括网格着色技术Mesh Shading、可变速率着色VRS、纹理空间着色和多视图渲染在内的四种全新渲染模式,并在AI推理和深度学习方面得以优化。GDDR6显存(图7)、NVLink和VirtualLink等新技术也被图灵一网打尽,GDDR6可带来14000MHz的等效频率,NVLink是英伟达首次在民用显卡中使用的专属高速总线,可用来取代过去的SLI,而VirtualLink则可通过USB Type-C接口和VR设备互联。
6 - 1572418904489.jpg
衍生三大核心
图灵架构目前已经衍生出了三大核心,它们是TU102、TU104和TU106。其中,TU102对应顶级的TITAN RTX和RTX2080Ti,TU104对应RTX2080,而TU106则成就了RTX2070和RTX2060,分别对应TU106-400和TU106-200,后者将SM单元从36组减少至30组,光栅、纹理、RT和Tensor单元也都有所缩水。
在CPU领域,无论是ARM还是X86处理器都在想办法通过新工艺在增加晶体管数量的同时减小核心面积从而帮助设备瘦身。然而,图灵架构虽然制程工艺有所升级,但晶体管数量和核心面积却出现了等比增长,较之同级别的前辈大了一圈(图8)。以采用TU106-200核心的RTX2060为例,它相比于上代GTX1060(GP106核心),核心面积翻了一倍有余,晶体管数量也从44亿随之增长到108亿。
7 - 1572418904973.jpg
移动/桌面版的差异
根据英伟达历代显卡的推广策略,都是桌面版为先,并由顶级型号开道。因此游戏本专用的GeForce RTX20系列移动显卡拖到2019年2月才姗姗来迟。那么,图灵显卡的桌面版和移动版之间的差异又具体体现在了哪里?
笔者整理了GeForce RTX20系列桌面版和移动版显卡的规格,同时还加入了GeForce GTX1060和GTX1070移动版显卡作为参考(表1)。
8 - 1572419456523.jpg
本刊在2019年第4期《GPU——浅析台式机和笔记本显卡的性能差异》这篇文章中曾介绍过英伟达GeForce GTX10系列桌面和移动显卡之间的规格和性能差异,GTX10系列的桌面/移动版规格相仿,部分移动版在参数上甚至还略有提升。然而,英伟达GeForce RTX20系列的移动版就没有前辈们的那般“好命”了。
先来看看好消息。GeForce RTX20的桌面和移动版采用了相同的核心,都是TU104-400和TU106-400/200,它们在底层架构、特色功能上没有半点差异。此外,所有的GeForce RTX20移动版全都搭配GDDR6显存,14000MHz的显存频率也没有缩水。以移动版的RTX2060为例,虽然它的显存位宽只有192bit,但得益于更高的显存频率,其显存带宽也暴涨到了336.1GB/s,比桌面版GTX1070的256GB/s还要高!
再来看看不好的消息。GeForce RTX20系列显卡由于新增了RT核心和Tensor核心这两个“电炉丝”,导致其TDP较之上代有了大幅提升。作为针对游戏本定制的移动版,为了将功耗控制在散热模块和标准电源适配器可以承担的范围内,其在核心基础和Boost加速频率上都出现了大幅缩水,比如RTX2060(移动版)的核心/Boost频率较桌面版就分别下降了405MHz和480MHz(图9)。
9 - 1572418904803.png
至于GeForce RTX20系列的Max-Q版显卡,其功耗和核心频率更是进一步下调。以RTX2080 Max-Q为例,它的TDP从移动标准版的150W进一步下调到了80W或90W,其中80W版本的核心/Boost频率也仅有735MHz和1095MHz。同理,RTX2070 Max-Q的频率也下降不少,核心/Boost频率分别为885MHz和1185MHz(图10)。
10 - 1572418904175.jpg
没错,大家最担心的问题成为了现实。受制于核心频率的下调,GeForce RTX20的桌面和移动版在性能上也将拉开较大的差距!
理论性能对比
在帕斯卡时代,Geforce GTX10系列移动和桌面版显卡之间的性能差异多在5%到10%之间,只要笔记本散热设计和功耗墙阈值不拖后腿,在实际游戏的帧数表现上相差无几。但是,进入图灵时代后,一切都变了。
通过下面这个表格的对比数据可见(表2),Geforce RTX2060的桌面版和移动版之间有着20%到28%的理论性能下降,而这就是400MHz核心频率下调和TDP砍半的代价。
但是,得益于图灵架构的先天优势,RTX2060(移动版)还是表现出了秒杀上代前辈GTX1060的资质,在3DMark的各项测试中平均性能提升了至少30%,虽然依旧不如GTX1070但也足够令人满意了。要知道,GTX1070移动版的TDP可是115W,而RTX2060移动版的TDP却只有80W左右,如果笔记本厂商可以提供解锁RTX2060移动显卡功耗墙的vBIOS,达到甚至超越GTX1070也并非不可能!
11 - 1572419456479.jpg
从3DMark的理论测试对比来看,移动版RTX2070的性能基本等同于桌面版的RTX2060或移动版的GTX1080,RTX2070 Max-Q版相当于移动版的RTX2060,而RTX2080 Max-Q版则等同于移动版的RTX2070。换句话说,当RTX20显卡采用Max-Q设计后,其性能会下降一个大的档次,这一点大家需要做到心里有数(图11)。
12 - 1572418905188.jpg
Max-Q设计是通过降低GPU核心频率实现最佳的TDP曲线,在性能和功耗、发热之间取得平衡,适用于追求轻薄的游戏本
游戏实测对比
3DMark毕竟只限于测试理论性能,相信大家更关心的还是武装RTX20系列移动版显卡的游戏本在实际游戏中的表现吧?好消息是,在绝大多数3D游戏中,RTX2060都能大幅领先上代显卡中更高一级的GTX1070,只有在《正当防卫4》和《刺客信条:奥德赛》等游戏中处于下风。同时,游戏实测数据再次印证了前文提到的RTX2070 Max-Q ≈ RTX2060,RTX2080 Max-Q ≈ RTX2070的结论(表3)。
13 - 1572419456776.jpg
换句话说,凡是武装RTX20系列显卡的游戏本,哪怕是RTX2060,也具备在1080P+最高画质下流畅运行几乎所有大型3D游戏的实力。当然,如果你想外接2K或4K分辨率的显示器环境下玩游戏,就需要至少RTX2070或更高级别显卡的帮忙了。
问题来了,英伟达GeForce RTX20系列又称“追光显卡”,当游戏本开启光线追踪特效之后,以RTX2060为代表的移动显卡还“Hold得住”吗?
体验追光的代价
前文我们提到过,DXR实时光线追踪和DLSS深度学习超采样抗锯齿技术是GeForce RTX20系列显卡的杀手级卖点,但自本文截稿时(2019年2月中旬)能同时支持DXR和DLSS技术的游戏却只有《战地5》(想激活DLSS必须同时打开DXR),而2019年内包括《原子之心》、《逆水寒》、《剑网3》、《机甲战士5:雇佣兵》、《古墓丽影:暗影》、《地铁:离去》也会陆续加入对两种技术的更新,只是具体时间还未确定。
因此,《战地5》就成为了检测实时光线追踪技术的主战场。需要注意的是,《战地5》在开启DXR特效后(图12),游戏画面中的场景、物体,其渲染方式和效果都和DX12模式相同,只有那些被开发者标记成“可反射”的部分才会加入光追场景数据。因此,《战地5》中的野外场景能看到光追特效的地方并不多,只有城市场景才能一睹光追特效的风采。但是,只要你开启了DXR特效,无论当前场景画面内是否存在光追渲染的内容,游戏帧数都会较关闭DXR特效时骤降40%到60%(视DXR特效等级)!虽然理论上通过后期优化可以不断减少DXR特效对性能的耗损,但这显然还需要不短的等待时间。
14 - 1572418905719.jpg
以采用八代酷睿i7-8750H和RTX2060显卡搭配的新款游戏本为例,在1080P分辨率、50%动态模糊、开启DX12、开启垂直同步和画面质量预设高的模式下,运行《战地5》(第一章节)在关闭DXR特效时的平均帧数在90fps左右,最低帧数也可维持在70fps以上。但在开启DXR特效后,平均帧数将大幅降到45fps左右,最低帧数更是仅有36fps,基本上损失了50%的性能。因此,如果你想在体验《战地5》光追特效且让游戏帧数始终保持50fps以上,至少需要游戏本武装RTX2070标准版显卡,哪怕是RTX2070 Max-Q也不够资格!
总之,DXR实时光线追踪虽然可以让游戏呈现更真实的光影特效,但代价也非常巨大,需要显卡承担40%以上的性能耗损。想彻底解决这个问题,还需要英伟达和具体的游戏厂商进行更多适配优化。目前除了英伟达的RTX技术、微软的DirectX Raytracing以外,诸如AMD ProRender渲染引擎、EA寒霜引擎、EA Seed、Unreal引擎、3DMark、Unity引擎也将引入对实时光线追踪技术的支持(图13),随着“追光显卡”有了更多可供发挥的舞台,其执行效率也会不断优化升级,让我们一起期待吧。
15 - 1572418906429.jpg

返回顶部 返回列表