热门问题
时间线
聊天
视角

Ada Lovelace (微架构)

Nvidia設計的圖形處理單元微架構 来自维基百科,自由的百科全书

Ada Lovelace (微架构)
Remove ads

Ada LovelaceNvidia开发的图形处理单元(GPU) 微架构,用于取代上一代安培架构,于 2022 年 9 月 20 日正式宣布。架构名称首次同时包含名字和姓氏,它以英国数学家愛達·勒芙蕾絲 [1]的名字命名,她通常被认为是第一位计算机程序员。 Nvidia 同时发布了使用该架构的GeForce 40 系列消费级显卡 [2]和 RTX 6000 Ada Generation 专业工作站显卡。 [3]据透露,新的 GPU 使用台积电新的5 纳米“4N”工艺,与 Nvidia 用于上一代安培架构的三星8 纳米和台积电N7工艺相比,效率更高。 [4]

Thumb
艾达·洛夫莱斯
事实速览 发布于, 设计者 ...
Remove ads
Remove ads

背景

Nvidia 首席执行官黄仁勋在 2022 年 9 月 20 日的 GTC 2022 主题演讲中宣布了 Ada Lovelace 架构,该架构为 Nvidia 的游戏、工作站和数据中心 GPU 提供动力。 [5]

微架构详解

Ada Lovelace 架构的架构改进包括以下内容: [6]

  • CUDA 计算能力(版本) 8.9 [7]
  • 台积电4N 工艺(NVIDIA 定制工艺)- 与台积电N4节点不同
  • 第 4 代 Tensor Cores,支持 FP8、FP16、bfloat16、TensorFloat-32 (TF32) 和稀疏加速
  • 第三代光线追踪核心,并发光线追踪,着色与计算
  • 着色器执行重新排序 (SER) [8]
  • 视频编解码器(NVENC/NVDEC) 支持 8K 10 Bit 60FPS AV1
  • 不支持NVLink [9]

流处理器 (SM)

CUDA 核心

每个 SM 单元包含 128 个 CUDA 核心。

光线追踪单元 (RT)

Ada Lovelace 采用第三代光追单元。 其中,RTX 4090 具有 128 个光追单元,而上一代 RTX 3090 Ti 为 84 个。这 128 个光追单元可以提供高达 191 TFLOPS 的计算能力,其中每个光追单元 1.49 TFLOPS。 [10] 全新的光线追踪管线引入了着色器执行重排序 (SER),Nvidia 声称它在光追工作负载中能提供 2 倍的性能提升。 [5]

张量核心 (Tensor)

第四代张量核心引入了基于 AI 的 DLSS 3 帧生成技术。Ada Lovelace 中每个 SM 单元包含 4 个张量核心,与上代安培架构非常相似。但是由于包含了更多的 SM 单元,张量核心的总数对比上代有所增加。

核心频率

Ada Lovelace 架构的核心频率显著提高,RTX 4090 的基础频率甚至高于 RTX 3090 Ti 的加速 (Boost) 频率。

更多信息 RTX 2080 Ti, RTX 3090 Ti ...

缓存与内存

更多信息 RTX 2080 Ti, RTX 3090 Ti ...

完整版的 AD102 核心拥有高达 96 MB 的二级缓存,相比基于安培架构的 GA102 核心,有着十六倍的提升。 [11]相较于那些通过较慢GDDR显存读取数据的GPU,新的GPU能够快速访问大量二级缓存,这有利于复杂的操作,例如光线追踪。与此同时,通过减少需要频繁访问的重要数据对显存的依赖,较低位宽的显存也可以和大容量二级缓存协同工作。

每个内存控制器占用一个 32 位连接,最高 12 个连接,组合得到内存总线位宽为 384 位。 Ada Lovelace 架构支持GDDR6GDDR6X显存。台式机 GeForce RTX 40 系列采用 GDDR6X 显存,而相应的移动版本和 RTX A6000 工作站 GPU 则使用更节能的 GDDR6 显存。

Remove ads

效率和工艺

与上一代相比,Ada Lovelace 架构能够使用更低的电压。 [5] Nvidia 声称,RTX 4090 在与上一代旗舰 RTX 3090 Ti 使用相同 450W 功耗的情况下,性能提高了 2 倍。 [12]

能耗比的提升归功于更先进的制造工艺。 Ada Lovelace 架构采用TSMC为Nvidia定制的顶尖4N工艺制造。上一代安培架构从 2018 年开始使用三星基于 8nm 的8N工艺节点,在该架构推出时已经是两年前的制造工艺。 [13] [14] 此外,具有 763 亿个晶体管的 AD102 芯片,晶体管密度为 1.255 亿/mm 2 ,比 GA102 的 4510 万/mm 2密度增加了 178%。

媒体引擎

Ada Lovelace 架构采用了新的第 8 代 Nvidia NVENC视频编码器,以及从安培架构沿用下来的第 7 代 NVDEC 视频解码器。 [15]

NVENC AV1硬件编码的加入,使得新架构支持高达 8K 60FPS 10 位色深。与H.264H.265编解码器相比,能够以更低的比特率实现更高的视频保真度。 [16] Nvidia 声称其采用 Ada Lovelace 架构的 NVENC AV1 编码器比采用安培架构的 H.264 编码器效率高 40%。 [17]

输出接口

Ada Lovelace 架构因仍旧使用 32Gbps 的旧 DisplayPort 1.4a,不支持具备更高数据带宽的DisplayPort 2.0接口而受到批评。 [18]因此,尽管 GPU 的性能能够达到更高的帧率,但依然会受到 DisplayPort 1.4a 的刷新率限制。反观同样于 2022 年 10 月发布的英特尔Arc GPU 却带有 DisplayPort 2.0 接口。在 Ada Lovelace 发布的两个月后, AMD对标的 RDNA 3 架构发布,RDNA 3 甚至支持 DisplayPort 2.1[19]

核心参数

更多信息 芯片[20], AD102 [21] ...

基于 Ada Lovelace 架构的产品

消费级

  • GeForce RTX 40系列
    • GeForce RTX 4050(移动端)(AD107)
    • GeForce RTX 4060(移动端)(AD107)
    • GeForce RTX 4070(移动端)(AD106)
    • GeForce RTX 4070 (AD104)
    • GeForce RTX 4070 Ti (AD104)
    • GeForce RTX 4080(移动端)(AD104)
    • GeForce RTX 4080 (AD103)
    • GeForce RTX 4090(移动端)(AD103)
    • GeForce RTX 4090 (AD102)

专业级

  • 桌面工作站
    • RTX 4000 SFF Ada Generation
    • RTX 6000 Ada Generation
  • 移动工作站
    • RTX 2000 Max-Q Ada Laptop
    • RTX 2000 Ada Laptop
    • RTX 3000 Ada Laptop
    • RTX 3500 Ada Laptop
    • RTX 4000 Ada Laptop
    • RTX 5000 Ada Laptop
  • 数据中心
    • L4
    • L40
    • L40G
    • L40 CNX

参考资料

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads