NVIDIA RTX 40系列显卡终于见到了我们。按照以往的做法,游戏级的80显卡通常是第一个见到我们的,但这次首先推出的是90级产品。

事实上,根据目前的情况,GeForce RTX 为了照顾仍在市场上销售的4090率先推出RTX 30系产品。还记得在RTX 30系列显卡推出时,大部分RTX 其实20系显卡已经停产,整体更新节奏明显。
而目前GeForce RTX 3090的价格基本不到1万元,已经停产。所以在这个时候推出GeForce RTX 4090不足以影响RTX 整体销售30系。

每次90级产品NVIDIA官实官方很少宣传游戏领域,但即使这次性能差距这么大,即使是NVIDIA侃侃也谈到了它的游戏性能。
顺便说一次NVIDIA将限量推出GeForce RTX 4090 FE北京时间10月12日晚9点,公版将在京东上市。喜欢公版设计或者想收藏的玩家一定要开始,只有拿在手里,才能感受到什么是满分工业设计。
01 NVIDIA GeForce RTX 4090 概览今年的GeForce RTX 4090在外观上变化不大,但包装一如既往的精致,这次NVIDIA还加入了环保理念。

外包装仍然使用哑光黑色纸箱,可以清楚地看到GeForce RTX 字体90字体的变化,GeForce RTX英文字样更流畅,数字更厚。
从侧面可以看出,除了外圈的硬纸盒外,显卡的包装都是黑色瓦楞纸。盒子两侧有黑色胶带,防止运输损坏。

打开的包装有点像帐篷的形状。这个性能怪物静静地躺在那里,有趣的是,显卡周围的装饰线条有自己的震惊效果。

拿出显卡后,包装里还附上了16张pin转8pin*4的转接线。其实本次GeForce RTX 建议电源和4090GeForce RTX 3090 Ti相同,都是850W,所以如果在RTX 配备高瓦数电源的30系玩家可以放心升级。

NVIDIA GeForce RTX 4090 FE显卡的整体尺寸为304×137×61mm,占用3槽空间。其实长度比较RTX 30系列显卡没有变化,甚至比RTX 3090 Ti还少了10mm,但是整体质感和重量都有所提高,整张卡大概是2.2kg,这仍然是一个以简单设计而闻名的公共版本。很难想象每个家庭AIC显卡会有多重。

NVIDIA GeForce RTX 4090的整体设计依然沿用RTX 30系列显卡的外观,但由于架构升级,热量增加,散热自然需要同步升级。本次的GeForce RTX 4090风扇尺寸再次增加,基本达到显卡整体框架直径。在散热风扇增加的基础上,最大气流动态增加20%,同噪声等级气流动态增加15%。

视频输出接口仍然使用HDMI 2.1 DP 1.4a*四接口设计。HDMI 2.1可支持4K 120Hz HDR、8K 60Hz HDR,现阶段的产品完全够用。
至于高呼声DP 2.0.事实上,目前大多数消费游戏显示器都没有实装,DP 1.4a标准也可以支持8K 60Hz显示刷新率。所以,总的来说,绝对够用。
而且,我们真的需要这么极端的规格吗?大家都知道羊毛出在羊身上的道理。
此外,由于公共版采用的双轴流散热系统,视频输出界面可以看到大量的散热片,与上一代相同。

本次GeForce RTX 4090整卡功耗450W,采用单16pin辅助供电。目前,一些电源制造商已经发布了最新的ATX 3.0标准高端电源,自带12VHPWR的16pin最高可支持600个供电接口W供电。因此,如果没有意外,也许下一代显卡也会使用这样的单16pin来供电。
虽然目前所有显卡厂商基本都会附上转接线,但是8pin*4的混乱程度可想而知。如果条件允许,一个ATX 3.0标准电源不要太干净。
需要注意的是,目前适用于RTX 30系列的12pin接口和电源转接器RTX 40系列显卡不兼容。
另外在RTX 即使在40系列显卡中,也是首发旗舰GeForce RTX 4090也不支持NVLink,所以不可能重现过去的四路泰坦。

最后来看看GeForce RTX 4090内部的PCB板材,仍采用深V”的异形PCB,它仍然紧凑地布置所有的组件,没有浪费,并在如此紧凑的环境中配备了20个 3相供电。整齐,堪称艺术品。
NVIDIA还强调,在高负荷下,GeForce RTX 4090的供电更稳定,不会有剧烈的电压和电流波动。
02 Ada Lovelace 姓甚名谁?让我们来看看这次推出NVIDIA Ada Lovelace架构,我们先从Ada Lovelace和这个人相比Ampere,这个似乎更奇怪。
Ada Lovelace英国数学家、计算机程序创始人(1815-1852)建立了循环和子程序的概念,被称为世界上第一个程序员。
Ada她的父亲从小就有很高的数学天赋,称她为平行四边形公主Charles Babbage称她为数字女巫。在19岁时Ada嫁给了她以前的科学家庭教师,婚后她对数学的热情并没有减弱。

1842年至1843年翻译9个月Babbage《分析机概论》的备忘录写了很多注释,其中给出了计算机Bernoulli详细说明数求解。由此,Ada它被广泛认为是世界上第一个程序员。
以她的名字命名的语言——ada语言已成为美军开发战斗机等尖端武器的语言。
从几行简短的生活简介中不难看出Ada虽然生命只经历了37个短暂的春秋,但足以被后人铭记。
这就是为什么这次NVIDIA RTX 在40的先行宣传中,使用了以未来敬传奇slogan,下面我们详细分析一下,这次Ada Lovelace还有哪些创新和超越?
03 NVIDIA Ada Lovelace架构本次发布的GeForce RTX 40系统显卡是全新的NVIDIA Ada Lovelace建筑结构,采用TSMC 4nm定制工艺(TSMC 4 nm NVIDIA Custom Process),旗舰核心AD102达到了恐怖760亿而在RTX 30系显卡中有280亿个。

与上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace具有相同的功率2倍以上性能提升。最高可达到90-TFLOPS本次发布的着色器数据吞吐量GeForce RTX 4090则达到83-TFLOPs,相比上一代NVIDIA Ampere则只有40-TFOPs。


完整的AD102核心共有18432个CUDA,包括12个图形处理集群(GPCs), 72个纹理处理集群(TPCs), 144流式多处理器(SMs)。



相比完整的GA102来说,RTX 4090共有16384个CUDA,其中包含11个GPC、64个TPC以及128个SM单元,第三代RT Cores第四代128Tensor Cores为512个。

事实上,根据完整的架构图,这次可以看到Ada架构整体结构变化不大,从SM单元可以清楚地确认相同的单元FP32 CUDA核心,同样的FP32/INT32混合CUDA核心,同样的L一级缓存等。当然,每个SM单元内部的Tensor Core升级为第四代。
但变化最显著的是第三代光追核心,我们结合两代架构。在第二代光追核心中,负责边界交叉测试Box Intersection Engine发动机和负责三角形交叉试验的发动机Triangle Intersection Engine引擎。

Opacity Micro-Map Engines(OMM)
和Displaced Micro-Mesh Engines(DMM),
这两个新的硬件单元可以大大提高光追性能(详细介绍具体原理)。至此,每2个SM一个单元组成TPC单元,每6组TPC一个单元组成完整的GPC顶层单元(5组将出现在一些核心中TPC组成一个GPC单位的情况)。
而每个GPC单元还配备了独立的光栅引擎和两组ROP分区(每组8个ROP单元)。
不再介绍太多关于数字的部分。毕竟这个架构图的大面和NVIDIA Ampere除了性能,架构基本相同。Ada还有哪些架构升级?

Shader Execution Reordering (SER)着色器重新排序
SER其主要功能是提高着色器的性能,它能将低效的工作负荷动态重组为更高效的工作负荷。光线跟踪的性能有了很大的提高。
简单地说,GPU执行类似工作效率最高。然而,随着光追逐效果的增强,每个场景可能会有数百万光照射在不同的材料上,我们知道不同材料的反射率和反射效果也不同。因此,为着色器创造了大量、发散、低效的工作负荷。
SER将这些凌乱的指令重新分类,动态重组为更有效的工作负荷。根据NVIDIA的说法,SER着色器的性能可以提高2倍,游戏帧率可以提高25%。
幸运的是,这样一个实用的功能不是RTX 40系专利,易于集成SDK,游戏开发商目前需要集成在游戏中。此外,由于它是一个通用的逻辑,后续也可以直接集成Windows的API在中间,游戏开发者不需要特别引用,直接调用系统API即可。





















































