Ada Lovelace (微架构)

Ada Lovelace 是Nvidia开发的图形处理单元(GPU) 微架构，用于取代上一代安培架构，于 2022 年 9 月 20 日正式宣布。架构名称首次同时包含名字和姓氏，它以英国数学家愛達·勒芙蕾絲 ^[1]的名字命名，她通常被认为是第一位计算机程序员。 Nvidia 同时发布了使用该架构的GeForce 40 系列消费级显卡 ^[2]和 RTX 6000 Ada Generation 专业工作站显卡。 ^[3]据透露，新的 GPU 使用台积电新的5 纳米“4N”工艺，与 Nvidia 用于上一代安培架构的三星 8 纳米和台积电N7工艺相比，效率更高。 ^[4]

事实速览 发布于, 设计者 ...

NVIDIA Ada Lovelace
发布于	(2022 年 10 月 12 日12)
设计者	Nvidia
制造商	TSMC
制造工艺	TSMC 4N
产品系列
台式机系列	GeForce RTX 40 series
专业级/ 工作站系列	RTX 4000 Ada RTX 6000 Ada
服务器/ 数据中心系列	Tesla Ada (L4x)
技术规格
时钟频率	735 MHz - 2640 MHz
一级缓存	128 KB (每组 SM)
二级缓存	32 MB - 96 MB
显存类型	GDDR6 GDDR6X
显存频率	21 - 22.4 Gbps
PCIe版本	PCIe 4.0
图形API
DirectX	DirectX 12 Ultimate (12.2)
Direct3D	Direct3D 12
Shader Model	Shader Model 6.7
OpenCL	OpenCL 3.0
OpenGL	OpenGL 4.6
CUDA	Compute Capability 8.9
Vulkan	Vulkan 1.3
通用计算API
CUDA	CUDA Toolkit 11.6
DirectCompute	支持
媒体编解码引擎
编码引擎	H.264 H.265 AV1
解码引擎	H.264 H.265 AV1
色彩深度	8-bit 10-bit
编码器	NVENC
显示输出	DisplayPort 1.4a HDMI 2.1
历史
前代产品	Ampere
变体	Hopper (数据中心)

Remove ads

背景

Nvidia 首席执行官黄仁勋在 2022 年 9 月 20 日的 GTC 2022 主题演讲中宣布了 Ada Lovelace 架构，该架构为 Nvidia 的游戏、工作站和数据中心 GPU 提供动力。 ^[5]

微架构详解

Ada Lovelace 架构的架构改进包括以下内容： ^[6]

CUDA 计算能力(版本) 8.9 ^[7]
台积电 4N 工艺（NVIDIA 定制工艺）- 与台积电N4节点不同
第 4 代 Tensor Cores，支持 FP8、FP16、bfloat16、TensorFloat-32 (TF32) 和稀疏加速
第三代光线追踪核心，并发光线追踪，着色与计算
着色器执行重新排序 (SER) ^[8]
视频编解码器(NVENC/NVDEC) 支持 8K 10 Bit 60FPS AV1
不支持NVLink ^[9]

流处理器 (SM)

CUDA 核心

每个 SM 单元包含 128 个 CUDA 核心。

光线追踪单元 (RT)

Ada Lovelace 采用第三代光追单元。其中，RTX 4090 具有 128 个光追单元，而上一代 RTX 3090 Ti 为 84 个。这 128 个光追单元可以提供高达 191 TFLOPS 的计算能力，其中每个光追单元 1.49 TFLOPS。 ^[10] 全新的光线追踪管线引入了着色器执行重排序 (SER)，Nvidia 声称它在光追工作负载中能提供 2 倍的性能提升。 ^[5]

张量核心 (Tensor)

第四代张量核心引入了基于 AI 的 DLSS 3 帧生成技术。Ada Lovelace 中每个 SM 单元包含 4 个张量核心，与上代安培架构非常相似。但是由于包含了更多的 SM 单元，张量核心的总数对比上代有所增加。

核心频率

Ada Lovelace 架构的核心频率显著提高，RTX 4090 的基础频率甚至高于 RTX 3090 Ti 的加速 (Boost) 频率。

更多信息 RTX 2080 Ti, RTX 3090 Ti ...

	RTX 2080 Ti	RTX 3090 Ti	RTX 4090
架构	图灵	安培	埃达·洛夫莱斯
基础频率 (MHz)	1350	1560	2235
加速频率 (MHz)	1635	1860	2520

缓存与内存

更多信息 RTX 2080 Ti, RTX 3090 Ti ...

	RTX 2080 Ti	RTX 3090 Ti	RTX 4090
架构	图灵	安培	埃达·洛夫莱斯
一级缓存	6.375 MB (每组SM 96 KB)	10.5 MB (每组SM 128 KB)	16 MB (每组SM 128 KB)
二级缓存	5.5 MB	6 MB	72 MB

完整版的 AD102 核心拥有高达 96 MB 的二级缓存，相比基于安培架构的 GA102 核心，有着十六倍的提升。 ^[11]相较于那些通过较慢GDDR显存读取数据的GPU，新的GPU能够快速访问大量二级缓存，这有利于复杂的操作，例如光线追踪。与此同时，通过减少需要频繁访问的重要数据对显存的依赖，较低位宽的显存也可以和大容量二级缓存协同工作。

每个内存控制器占用一个 32 位连接，最高 12 个连接，组合得到内存总线位宽为 384 位。 Ada Lovelace 架构支持GDDR6或GDDR6X显存。台式机 GeForce RTX 40 系列采用 GDDR6X 显存，而相应的移动版本和 RTX A6000 工作站 GPU 则使用更节能的 GDDR6 显存。

Remove ads

效率和工艺

与上一代相比，Ada Lovelace 架构能够使用更低的电压。 ^[5] Nvidia 声称，RTX 4090 在与上一代旗舰 RTX 3090 Ti 使用相同 450W 功耗的情况下，性能提高了 2 倍。 ^[12]

能耗比的提升归功于更先进的制造工艺。 Ada Lovelace 架构采用TSMC为Nvidia定制的顶尖4N工艺制造。上一代安培架构从 2018 年开始使用三星基于 8nm 的8N工艺节点，在该架构推出时已经是两年前的制造工艺。 ^[13] ^[14] 此外，具有 763 亿个晶体管的 AD102 芯片，晶体管密度为 1.255 亿/mm ² ，比 GA102 的 4510 万/mm ²密度增加了 178%。

媒体引擎

Ada Lovelace 架构采用了新的第 8 代 Nvidia NVENC视频编码器，以及从安培架构沿用下来的第 7 代 NVDEC 视频解码器。 ^[15]

NVENC AV1硬件编码的加入，使得新架构支持高达 8K 60FPS 10 位色深。与H.264和H.265编解码器相比，能够以更低的比特率实现更高的视频保真度。 ^[16] Nvidia 声称其采用 Ada Lovelace 架构的 NVENC AV1 编码器比采用安培架构的 H.264 编码器效率高 40%。 ^[17]

输出接口

Ada Lovelace 架构因仍旧使用 32Gbps 的旧 DisplayPort 1.4a，不支持具备更高数据带宽的DisplayPort 2.0接口而受到批评。 ^[18]因此，尽管 GPU 的性能能够达到更高的帧率，但依然会受到 DisplayPort 1.4a 的刷新率限制。反观同样于 2022 年 10 月发布的英特尔 Arc GPU 却带有 DisplayPort 2.0 接口。在 Ada Lovelace 发布的两个月后， AMD对标的 RDNA 3 架构发布，RDNA 3 甚至支持 DisplayPort 2.1 。^[19]

核心参数

更多信息 芯片[20], AD102 [21] ...

Ada Lovelace 核心对比
芯片^[20]	AD102 ^[21]	AD103 ^[22]	AD104 ^[23]	AD106 ^[24]	AD107 ^[25]
尺寸	608 mm²	378.6 mm²	295 mm²	190 mm²	146 mm²
晶体管	763亿	459亿	358亿	未知
晶体管密度	1.255 亿/mm²	1.211 亿/mm²	1.214 亿/mm²
图形处理集群 (GPC)	12	7	5	3	2
流处理器 (SM)	144	80	60	36	24
CUDA 核心	18432	10240	7680	4608	3072
纹理映射单元	576	320	240	144	96
渲染输出单元	192	112	80	64	32
张量核心	576	320	240	144	96
光追单元	144	80	60	36	24
一级缓存	18 MB	10 MB	7.5 MB	4.5 MB	3 MB
每个 SM 单元 128 KB
二级缓存	96 MB	64 MB	48 MB	32 MB

基于 Ada Lovelace 架构的产品

消费级

GeForce RTX 40系列
- GeForce RTX 4050（移动端）(AD107)
- GeForce RTX 4060（移动端）(AD107)
- GeForce RTX 4070（移动端）(AD106)
- GeForce RTX 4070 (AD104)
- GeForce RTX 4070 Ti (AD104)
- GeForce RTX 4080（移动端）(AD104)
- GeForce RTX 4080 (AD103)
- GeForce RTX 4090（移动端）(AD103)
- GeForce RTX 4090 (AD102)

专业级

桌面工作站
- RTX 4000 SFF Ada Generation
- RTX 6000 Ada Generation
移动工作站
- RTX 2000 Max-Q Ada Laptop
- RTX 2000 Ada Laptop
- RTX 3000 Ada Laptop
- RTX 3500 Ada Laptop
- RTX 4000 Ada Laptop
- RTX 5000 Ada Laptop
数据中心
- L4
- L40
- L40G
- L40 CNX

参考资料

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads