Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

NVIDIA GPU在图形渲染、高性能计算两条路上都是一骑绝尘,让对手看不到尾灯,但是依然没有停下甚至放缓的节奏,如今又带来了重新设计的Blackwell GPU架构,而且通吃图形、计算两大领域。

随着RTX 50系列的正式发布,NVIDIA也公开了Blackwell的诸多细节,尤其是架构设计、AI神经网络渲染、DLSS 4技术,等等。

CES 2025大展期间,文Q受NVIDIA官方邀请参加了Editor’s Day活动,提前了解了Blackwell的相关设计,并参观了多项现场技术演示。

下边,我们逐一来看。

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

【Blackwell GPU架构设计:四大目标】

相信这部分是大家最为感兴趣的,推荐各位首先回顾一下我们广众网在2022年10月份介绍的Ada Lovelace架构设计,对比来看Blackwell架构的变化会更有针对性。

NVIDIA首先承认,当前的GPU行业内,一方面是用户对画质、帧率的要求越来越高,还得兼顾,但另一方面摩尔定律逐渐放缓。

这一尖锐的矛盾如何解决,NVIDIA给出的答案就是——支持神经网络渲染、AI算力飙升的Blackwell架构。

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

虽然AI渲染已经诞生很多年,日渐普及,但是很多玩家依然特别在意所谓的原生渲染性能,特别是光栅化游戏的性能,而对DLSS这样基于AI算法的技术嗤之以鼻,认为算出来的画面都是作弊。

这种看法显然有失偏颇。坦白地说,至少在现有技术条件下,AI计算出来的画面肯定和原生渲染画面有一定区别,但第一,我们最终需要的是更好画质、更高帧率这一结果,只要能达成目的,方法和手段是次要的;毕竟原生渲染出的画面其实也不是真的画面,只是实现的渲染方式的差别罢了。

第二,AI技术和算法也在不断快速进步,越来越逼近甚至超过原生渲染的画质,迟早会让人无法轻易分辨或反而带来画质的提升;

第三,传统渲染技术进步越来越难,不可能一直抱残守缺,需要不断革新。

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

为此,NVIDIA提出了Blackwell架构设计的四大主要目标:优化新的神经网络负载、降低显存占用、优化AI精度与大模型、更高能效。

最终,Blackwell架构通过第五代Tensor Core,在新的FP4数据精度下,最高可达4000 AI TOPS(每秒4千万亿次计算)的超高算力;

通过第四代RT Core,达成了360 RT TFLOPS(每秒360万亿次计算)的性能;加入了全新的AI管理处理器(AM P),可以同步管理AI模型与图形,自动拆分不同的变成类型,调度分配给不同的硬件执行,尤其是AI相关的。

重组了SM单元,专为神经网络着色器(Neural Shaders)而组建,性能高达125 TFLOPS;

针对移动端升级了Max-Q,能效提升2倍;

还首发了新一代GDDR7显存,最高速率达30Gbps。

1、优化新的神经网络负载

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

上下图分别为Blackwell(GB202)、Ada Lovelace(AD102)的架构布局总图,大体上没什么变化(当然规模更大了),属于又一次升级版。

最直接的变化,就是增加了一组AI管理处理器,和原有的线程引擎并列负责负载分配,同时PCIe 4.0升级来到了PCIe 5.0。

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

SM(流式多处理器单元)一直是NVIDIA GPU的基础模块,Blackwell做了大幅度的变革。

一是将传统的着色器改造为神经网络着色器,加入多个神经网络处理单元。

二是将FP32/INT32、FP32两种不同的着色器核心,统一为FP32/INT32(总数不变),也就是之前有一半着色器核心只能处理单精度浮点数据,而现在所有的都可以同时处理整数、浮点运算,效率更高,调度也更灵活,当然对负载分派的准确性、效率也有更苛刻的要求。

三是将第三代Tensor Core 升级为第四代。

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

随着专用神经网络处理单元的加入,结合原本的光照、几何、物理、材料、光线遍历等单元,可以将输入的不同工作负载,更高效地进行能够重排序。

其中,神经网络类负载会专门交给Tensor Core,其他则交给着色器核心,SER(着色器执行重排序)性能提升了2倍。

2、降低显存占用

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

RT Core升级为第四代,重点提升了检测光线、路径与三角形相交的性能与效率,能够以大规模的集群方式进行,效率提升数十上百倍。

其中,原有的三角形碰撞引擎,升级为三角形集群碰撞引擎(Triangle Cluster Intersection Engine),新增三角形集群解压缩引擎(Triangle Cluster Decompression Engine),二者联合可处理百万级别的超大规模三角形。

还新增了线性扫描球体(Linear Swept Spheres),主要用于毛发的渲染,使用球体代替三角形来获得更准确的毛发形状拟合,从而大大减少所需的几何图形数量,性能更好,显存占用更少。

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

NVIDIA将这种高效的三角形处理方法称为RTX “Mega Geometry ”(海量几何),非常适合渲染全景光追,模型复杂度可提升上百倍。

按照NVIDIA的说法,Blackwell的三角形交互处理效率比Ada架构再次提升了2倍(对比首次加入光追的Turing则提升8倍),而显存占用量降低了25%。

3、优化AI精度与大模型

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

随着架构与Tensor Core的迭代,支持的数据类型越来越多,支持的精度越来越低,速度也越来越快。

Turing架构在原有FP32精度的基础上首次支持FP16浮点精度,对比Pascal在吞吐量上提升了8倍之多,而之后的Ampere架构没变。

Ada Lovelace增加了FP8浮点精度,吞吐量再次翻番。

Blackwell又首次增加了FP4精度,性能也继续翻番,当然它同时也支持FP8、FP16、FP32,因此灵活性更强,可以随时处理不同精度的数据和负载。

数据精度更低,所需要的处理能力和带宽更少,速度自然更快,这也就是Blackwell宣称性能提升X倍的一个主要原因。

当然,低精度数据格式的缺点是准确性会有牺牲,需要根据实际情况选择最合适的精度。

INT32、INT16、INT8、INT4、FP32、FP16、FP8、FP8、TF32、BF16等等都是模型的量化级别,主要区别在于浮点数的位数和量化的方式。

一般来说,位数越少,量化越多,模型越小,速度越快,但精度也越低,有点像文件压缩,反之亦然。

高精度模型体积庞大,数据丰富,训练、微调、推理需要更长的时间,对算力要求更高,而通过低精度量化,可以缩小模型体积,降低硬件要求,提高运行速度,但输出效果会相应降低。

具体选择什么样的精度,取决于实际情况所需,尤其是运行于什么样的设备、需要什么样的结果。

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

这就是之前说的AMP(AI管理处理器)的作用示意图。

它会对输入的不同指令类型进行自动识别、区分,包括AI语言模型、游戏引擎两大类,然后按照最适合执行的硬件单元,分配给CUDA Core、RT Core、Tensor Core去分别执行。

特别是大语言模型(LLM),会被优先处理、执行和响应,同时帧渲染和帧生成的节奏也会更加紧凑、协调,多帧生成提供一致的画面生成时间。

4、更高能效

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

为了在提升性能的同时控制功耗、保持高能效,Blackwell也下了不少功夫,尤其是在移动端,也对Max-Q做了全新升级。

其中时钟门控(Clock Gating),数据无效时关闭寄存器的时钟;电源门控(Power Gating)可关闭空闲模块的电源;

进一步加入的电路门控(Rail Gating),更是可以进一步在空闲或待机时,关闭大部分的计算模块。

这些节能措施不仅适用于笔记本电脑GPU,台式机GPU同样可以从中获益。

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

Blackwell还支持加速频率切换(Accelerated Frequency Switching),相比之前的时钟控制器,对于时钟频率的响应切换速度提升了上千倍,进入睡眠或唤醒的速度也提升了几个量级。

同时,通过在动态负载中加快时钟调整速度,整个SM单元的效率也大大提升。

简单地说,这可以让GPU在需要时更稳定地运行在更高频率,而一旦完成工作可以快速将频率降到最低,进入睡眠等待状态。

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

更高的性能可以让Blackwell在更短的时间内完成工作,从而尽快转入低功耗模式。

新的电路/时钟门控又大大提高了低功耗模式的效率,使之功耗状态更低,而更低的延迟可以让GPU更快地进入睡眠状态,并保持更久。

NVIDIA表示,Blackwell比上代可以节省多达50%的功耗。

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

GDDR7显存就不用说太多了,首次采用PAM3信号编码机制,相比于GDDR6 PAM2、GDDR6X PAM4,将每时钟周期的数据传输从1/2位增加到3位,自然显著提升了传输带宽。

GDDR7目前的数据率已经达到30Gbps,未来可以轻松超过40Gbps,三星的研究甚至到了42.5Gbps。

同时,GDDR7还可以显著降低能耗,基本是GDDR6的一半左右。

Blackwell RTX 50架构深度揭秘:AI神经网络渲染、DLSS 4才是战未来!

对媒体能力方面,Blackwell终于将DisplayPort的支持从1.4a版本提升到了最新的2.1,并且支持最高的UHBR20模式,单通道带宽就有20Gbps,最多可以四个通道并行,总带宽高达80Gbps,相当于1.a的几乎10倍。

藉此,Blackwell系列可以支持高达8K 165Hz规格的显示器。

NVDEC解码引擎升级到第九代,NVENC编码引擎升级到第六代。

AV1格式升级支持到UHQ超高质量模式,HEVC(H.265)格式升级支持到MV-HEVC(多视图), H.264解码能力翻倍,色度格式则从4:2:0升级到4:2:2。

责任编辑:上方文Q

主题测试文章,只做测试使用。发布者:广众网,转转请注明出处:https://www.zmdnky.org.cn/article/5572.html

(0)
广众网的头像广众网
上一篇 2025年1月22日 下午1:45
下一篇 2025年1月22日 下午2:17

相关推荐

  • 仍未上架应用商店:装TikTok的手机在美国被出售 有人出价36万/台

    广众网1月22日消息,据国外媒体报道称,虽然TikTok在美国恢复服务,但它仍未上架美国应用商店。 报道中提到,在字TikTok在美国短暂关闭并迅速恢复服务三天后,部分已删除该应用的用户焦急地检查自己的iPhone和安卓设备,发现TikTok仍无法重新下载。 一些试图从TikTok粉丝的绝望中牟利的人甚至在eBay上以高达5万美元(约36.4万元人民币)的价…

    2025年1月22日
    3900
  • 春节后的第一款Ultra旗舰!华硕Zenfone 12 Ultra来了

    广众网1月21日消息,华硕宣布将于2月6日发布年度旗舰Zenfone 12 Ultra,这是春节后推出的第一款Ultra机型。 根据Geekbench 6跑分网站公布的信息,华硕Zenfone 12 Ultra型号是ASUSAI2501H,搭载高通骁龙8 Elite处理器,配备16GB内存,预装Android 15操作系统,单核成绩是3036,多核成绩是96…

    2025年1月21日
    4500
  • 小米YU7 Max实车上路!车漆质感细腻、全新括号转向灯亮了

    广众网1月25日消息,近日,一组小米YU7实车上路的高清图在社交平台上曝光。 值得注意的是,照片车尾部有“YU7 Max”的标志,或意味着小米YU7也将延续SU7不同版本的命名方式,推出普通版和Pro、Max三种版本。 从照片中还可以看到,YU7新车车漆质感细腻,转向灯采用全新样式,面积较小,呈现括号形状,位于贯穿式尾灯的两端。 对于这一设计,有网友认为,“…

    2025年1月25日
    3100
  • 造车新势力纷纷破产!贾跃亭:法拉第未来绝境中生存 我亲自下场、坚持创新等

    广众网1月26日消息,近日美国造车新势力Canoo宣布已向特拉华州美国破产法院提交自愿请愿书,这引起了贾跃亭的注意。 据悉,Canoo品牌的前身是Evelozcity,创始人为法拉第未来的两位前高管斯特凡·克劳斯和乌尔里希·克兰茨。 对于这样的解决,贾跃亭表示,他们倒闭是必然的,因为大量的技术都是从法拉第未来窃取而来,公司从成立之初就是在“作恶”。 “尽管F…

    2025年1月26日
    4600
  • 魅力太大!蔚来李斌参加车友年会 被男车主强吻

    广众网1月20日消息,日前,有网友分享了一则极其戏剧性的视频,蔚来董事长李斌被男车友强吻,引起网友热议。 1月18日,李斌来到南通参加车友俱乐部年会,在合影环节,一名男车友走上台与李斌握手合影留念。 可在合影结束准备下去时,男车友以迅雷不及掩耳盗铃之势,强吻了李斌。男车友得逞后,还回头望向李斌得意的笑,场下参会的车友也是被惊到。 对此,网友调侃道:“这份新年…

    2025年1月20日
    3300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信