热门问题
时间线
聊天
视角

GeForce 700系列

来自维基百科,自由的百科全书

Remove ads

GeForce 700 系列NVIDIA公司在2013年发布的第十五代GeForce图形处理器,用于笔记型电脑和桌上型电脑。它主要是使用于GeForce 600系列Kepler架构的改进版(晶片代号以‘GK’开头),不过,和GeForce 600系列一样,一些低阶型号则仍使用Fermi架构或是其制程升级版。2013年4月,已经有部分GeForce 700系列的行动版显示核心悄然发布,但都是旧有显示核心的更名版。2013年5月23日,首款基于GeForce 700系列显示核心的显示卡GeForce GTX 780正式发布,同时也将此前划分至GeForce 600系列的GeForce GTX TITAN重新划分到GeForce 700系列中。[注 1]2014年2月19日,NVIDIA随著Maxwell架构发布推出GeForce GTX 750与GeForce GTX 750 Ti,宣称能以更少的功耗达到与GeForce GTX 480同等的效能。[2]

事实速览 发布日期, 代号 ...
Remove ads

概观

NVIDIA GeForce 700系列的首款显示核心,代号‘GK110’,特别针对通用运算的效能提升而设计,其拥有71亿颗电晶体,而且还会根据负载需要以及各流处理器负载情况来分派运算任务,从而加强并行多任务效能,并尽可能来最佳化效能能耗比表现。

在‘GK110’上,暂存器堆和2级快取(L2 cache)的容量和频宽比此前的型号都有所提升。与‘Fermi’架构相比,在SMX/SM流处理器阵列的层面上,‘GK110’的暂存器堆容量增至256KB,由65536个32位元的暂存器组成。‘GK110’的2级快取的容量增加到1.5MB,两倍于费米的‘GF110’。2级快取和暂存器堆的频宽与‘Fermi’架构相比提升了两倍,使得在需要为每条执行绪分配更多可用暂存器资源时导致的暂存器匮乏的情况下的效能也得到提升,而且,GK110上每条执行绪可进行定址、搬移的暂存器总数,也由每执行绪63个暂存器提升到每执行绪255个暂存器。

GK110上,NVIDIA也修改了GPU的纹理快取,使其不仅只用于图形处理,还可以用于通用运算。48KB容量大小的纹理快取,在执行通用运算时作为唯读快取,专门用于未对齐的记忆体存取操作。此外,错误侦测功能也被加入,使得依赖于ECC纠错的负载任务更稳定安全。[3]

对比GeForce 600系列,GeForce 700系列的部分型号的显示记忆体由上代0.33ns颗粒改用了更低延迟的0.28ns颗粒,等效频率由6000MHz上升到7000MHz,GPU时脉亦有所上升。此外,GeForce 700系列的部分型号还引入GPU Boost 2.0,令GPU可根据负载需要自动加速到更高频率。

未来辉达还会透过驱动程式的支援,在‘Fermi’、‘Kepler’、‘Maxwell’显示核心上实作DirectX 12。[4]

Remove ads

特性

NVIDIA GeForce 700系列包括来自‘GK104’和‘GK110’的特性。GeForce 700系列中基于Kepler架构的各款型号根据市场定位需要加入了以下功能特性。

来自‘GK104’的特性:

  • PCI Express 3.0
  • DisplayPort 1.2
  • HDMI 1.4a 4K x 2K 视讯输出
  • Purevideo VP5硬体视讯加速(最高支援4K x 2K的H.264解码)
  • 硬体H.264编码器(NVENC)
  • 支援最多4个2D荧幕输出,或是3荧幕3D视讯输出(NV Surround)
  • 无边界纹理
  • GPU Boost
  • TXAA抗锯齿
  • 台积电28奈米制程

来自‘GK110’的新特性:

  • GPU Boost 2.0
  • 针对通用运算而进行的SMX提升改进
  • CUDA 3.5
  • 随机搬移指令(Shuffle)
  • 动态并行
  • Hyper-Q(Hyper-Q的MPI功能仅为Tesla系列保留)
  • 网格管理单元
  • NVIDIA GPUDirect(GPU Direct的RDMA功能仅保留在Tesla和Quadro系列)
Remove ads

针对运算而进行的SMX提升改进

NVIDIA在设计‘GK110’时,重在提升其运算性能。‘GK110’与‘GK104’最大的改变在于,‘GK104’的SMX阵列中,每个SMX阵列拥有8个CUDA核心(流处理器)专门用于FP64(双精度浮点数)运算操作,而‘GK110’中每个SMX阵列拥有64个CUDA核心用于FP64运算操作,这使得‘GK110’中每个SMX阵列的双进度浮点数运算作业吞吐量可达8倍于一个‘GK104’的SMX阵列。‘GK110’的SMX阵列的全域暂存器档案空间也有增加,达256KB。纹理快取也有改进,48KB的空间,可在通用运算中充当唯读快取。[3]

随机搬移指令

在低阶程式语言层面上,‘GK110’增加了额外的指令和操作,来求得更好的效能。新增的随机搬移指令,允许执行绪可存取共用资料而无需到记忆体中存取,使处理进程比以往的载入/共用/存放模型来得更快。原子操作也被彻底分解,这样做除了加速原子操作执行速度之馀,还加入一些FP64的操作使其获得对FP64资料的处理能力,而此前仅支援FP32单精度浮点数的资料。[3]

Hyper-Q

在执行通用运算时,Hyper-Q将‘GK110’的硬体工作队列从1个扩展到32个。在‘Fermi’架构时代,一个工作队列无论它是否会动用显示核心内每个SM阵列,都会在队列任务处理完毕前占用这些阵列,这样做就会有部分SM阵列处于闲置,而造成效率低下。‘GK110’上,由于拥有32个工作队列,在不同的情况下,能够将不同的任务流输入至原本闲置的SMX阵列中,增进单元复用率来达成运算资源利用最佳化。Hyper-Q不仅在显示核心内负责任务队列分派作用,还能与MPI通讯以及建立映射(在高效能运算领域里频繁使用的一个通讯界面),来加强Hyper-Q的在高效能运算方面的功用。此前基于MPI的解题运算步骤,多为多CPU系统而设计,利用显示核心作运算加速的话,由于一般显示核心仅能对图形任务进行排程,对显示核心内的运算单元等进行通用运算任务分配仍需要依赖CPU处理,这样又加重了CPU的负担,而且显示核心也没有被充分利用,这样就成为效能提升的一大瓶颈,而Hyper-Q则可以解决这个瓶颈,GPU可自动根据负荷需要对SMX阵列执行通用运算任务分配。提升MPI任务数量,可在这些求解运算步骤中充分利用Hyper-Q,提升效率进而提升效能,而且,运算程序还无需做修改或只需小许修改。[3]

Remove ads

Dynamic Parallelism

Dynamic Parallelism是使显示核心根据需要对Grid的运算结果进行判别并在显示核心内建立新的Kernel。‘Fermi’时代,当前一个Kernel执行完毕后只有CPU可以回收判别运算结果然后才为显示核心分配新的Kernel,这使得需要花费不少的资源来维持显示核心与CPU之间的通讯。在核心加入判别运算结果以及分派Kernel能力,使其它的Kernel也能按照接到CPU发出的运算请求的Kernel去派遣分配,那样显示核心就可以节省大量与CPU通讯的资源以及时间,降低延时、提升显示核心内部的Kernel密度、任务执行连贯度以及低负载高密集度任务中的运算单元复用率,同时也能解放CPU,使CPU能有更多时间处理其它任务。[3]

Gird管理单元

Dynamic Parallelism,由Grid Management Unit(GMU,Gird管理单元)用作管理Grid以及对将要运行的Gird进行优先级排程,可以暂停新网格和队列的分派,并且在网格准备执行时方会解除网格的暂停等待状态,为准许像是动态并行能力等高负载的功能的运行提供更好的灵活性。在Kepler上的二级仲裁机制CUDA Work Distributor(CUDA工作分发器,CWD)持有准备可被分派多达32个活动的Grid,双倍于‘Fermi’的CWD,GMU对其收到的Grid进行执行/停止、回收、判断、暂停等待以及重新排序等作业。‘Kepler’上的CWD经由一种双向链路与GMU通讯,以使得GMU可以暂停新Grid的分派并在需要时令Grid继续执行。GMU也与Kepler的SMX阵列直接连接,以允许开启额外工作的Grid以动态并行的方式发送新工作回GMU,令其对新工作进行优先级排程并分派。如果分派了额外工作负载的核心暂停了,GMU将使其进入不活动状态,直到从属的工作已经完成方会调回。[5]

Remove ads

NVIDIA GPUDirect

NVIDIA GPUDirect™特性,允许在一台电脑上或数台伺服器中的多颗GPU连接为一个网路,而且它们之间可直接交换资料而无需经过CPU或系统记忆体。GPUDirect的RDMA特性允许第三方装置,像是固态硬碟、网路卡以及IB适配器等在多GPU网路上的同一系统中直接存取显示记忆体,最重要的是,可以降低MPI发送到或接收自其它GPU的显示记忆体的资讯。它也降低了系统记忆体的频宽需求,减低GPU的DMA引擎的压力并使其可用于其它CUDA任务上。Kepler‘GK110’也支援其它GPUDirect特性,包括点对点(P2P)以及视讯专用GPUDirect。

DirectX 12

GeForce 700全系列显示核心的显示卡上皆可以支援部分DirectX 12功能。辉达在基于DirectX 11的GPU上透过驱动程式支援DirectX 12的API。[4]

产品介绍

桌面平台

Thumb
技嘉推出的GeForce GTX 770显示卡
Thumb
GeForce GTX 780显示卡的电路板

目前基于‘Kepler’显示核心的有6款产品推出,GeForce GTX 760、770、780、780 Ti、TITAN以及TITAN Black。GTX 760和770采用GK104核心。GTX 780采用与TITAN相同的GK110核心,仅在纹理单元数量,时脉以及驱动程式特性上有不同。780Ti以及TITAN Black搭载完整版‘GK110’显示核心,两者的驱动程式特性也有所不同。

  • GeForce GTX TITAN[6]以及GeForce GTX TITAN Black[7]- 前者于2013年2月19日推出。[8]GeForce GTX TITAN采用和NVIDIA Tesla K20X相同的,核心代号为GK110的显示核心:拥有71亿个电晶体,2688个CUDA核心,48个ROP单元,224个纹理单元,384位元的记忆体位宽和6GB容量的GDDR5显示记忆体,双精度浮点运算速率和单精度浮点运算速率的比率维持在设计的1/3,而非GTX690/680/670等限制在1/24的比率。然而在GeForce GTX TITAN的驱动程式中,预设双精度浮点运算速率和单精度浮点运算速率的比率仍为1/24(但可以手动在NVIDIA控制面板中开启全速双精度浮点运算),核心时脉和著色器时脉均为837MHz(开启全速双精度浮点运算后降为732MHz),等效显示记忆体时脉为6008MHz,记忆体频宽288.4GB/s。除此以外还支援新的电源管理GPU Boost 2.0,提供相对更自由的电压调整和更细致的时脉和电压调整。外接辅助供电采用6Pin+8Pin的形式。NVIDIA的宣传口号:‘DNA Of the World's Fastest Supercomputer’。在多个效能测试中远超GeForce GTX 680以及对手AMD的Radeon HD 7970 GHz Edition。[9][10][11]但是,NVIDIA却严格限制合作厂商生产非公版的GeForce GTX Titan。[12]后续的升级版‘GTX TITAN Black’已于2014年2月18日推出,规格更新至和Quadro K6000以及Tesla K40X一致的完整版‘GK110’显示核心,拥有2880个流处理器,240个纹理单元,预设时脉也提升到889MHz(全部核心加速时为980MHz),而其馀规格与GTX TITAN一致,其显示卡外观上仅散热器金属罩的标识相异。[13][14]
  • GeForce GTX 780[15]以及GeForce GTX 780 Ti[16] - 前者于2013年5月23日发布,相比GTX TITAN,流处理器数量进一步削减至2304个(1组SMX单元),纹理单元也削减至192个,但其它基本规格和GTX TITAN一致;公版显示卡的显示记忆体容量也削减到3GB,核心预设时脉则小幅上升至863MHz(全部核心加速时可达900MHz),也阉割了双精度浮点数运算的效能(1/24比率),相对GTX TITAN,NVIDIA允许合作厂商推出非公版显示卡。[17]在GTX TITAN发布后续升级版GTX TITAN Black前,消费级的完整版‘GK110’显示核心出现在2013年11月7日推出的GTX 780 Ti上,规格和后续的GTX TITAN Black的基本一致,但公版显示卡的显示记忆体容量也只有3GB,而且和GTX 780一样阉割双精度浮点运算效能,核心时脉上升至876MHz(加速可达928MHz),效能表现稍胜于对手AMD的Radeon R9 290X[18]但是由于GTX 780 Ti的规格和GTX 780的规格相差非常小(仅供电不一致),因此有合作厂商曾将用于GTX 780的电路板用于GTX 780 Ti上,但由于供电规格的差异而导致这批使用GTX 780电路板的GTX 780 Ti会有显卡烧毁的危险。而对于问题显卡,厂商也愿意对购买了这批显卡的用户免费更换新批次的显卡。[19][20][21]
  • GeForce GTX TITAN Z[22] - 2014年3月25日由黄仁勋于NVIDIA GTC 2014(GPU年度技术大会)上公布,GTX TITAN Black的双芯版本,单张电路板上搭载两颗完整规格的‘GK110’显示核心,5760个流处理器,480纹理单元,56个ROP单元,12GB容量的GDDR5显示记忆体,2×384位元的记忆体位宽,但具体的时脉仍没有公布,辉达的官方建议售价高达2999美元。[23]但正式贩售日期已数度延期,最终于2014年5月28日正式贩售,维持和发布时硬体规格以及价格。尽管公版显示卡的效能上略为不及对手AMD Readeon R9 295X2公版,但最大仅375W的热设计功耗以及发热控制(仅使用风冷)要比对手的500W优胜,但在散热器的噪音控制方面不及对手。[24][25]
Remove ads

行动平台

Thumb
使用MXM接口的笔记本电脑用GTX 780M

辉达首先推出的使用于行动电脑的GeForce 710M[26]和GeForce GT 730M[27]均为上一代产品的更名版本。后续陆续发布了低端入门、中端以及高端的行动GPU,见下面的晶片规格表。

晶片规格

桌上型显示核心

GeForce 700系列的桌上型显示核心,首发实际上是GeForce GTX TITAN,稍后是GeForce GTX 780,规格进一步删减、价格更低的产品都在GeForce GTX 780发布以后陆续发布并上市。和GeForce 600系列一样,几乎所有的‘Kepler’架构的显示核心尽管支援DirectX 11.1的应用程式界面,但硬体支援度上仅支援到Direct3D 11.1的硬体特性层面11_0,Direct3D硬体特性层面11_1并没有完整支援,11_1相比11_0多出的4个特性在‘Kepler’的硬体上没有予以支援。[28][29]即使后续可以支援Direct3D 12,也只能支援到Feture Level 11_0的功能级别。

  • 1 统一渲染器/流处理器数量 : 纹理映射单元数量 : 渲染输出单元(ROP)数量
  • 2 画素填充率的计算:ROP的数量乘以基准核心时脉速率(时脉单位Hz),单位画素数每秒(P/s)。
  • 3 纹理填充率的计算:TMU的数量乘以基准核心时脉速率(时脉单位Hz),单位纹理数每秒(T/s)。
  • 4 单精度浮点数运算效能的计算:两倍渲染器的数量然后乘以基准核心时脉速率(时脉单位Hz),单位FLOPS
  • 5 双精度浮点数运算效能的计算:GeForce GTX TITAN的为单精度浮点数运算效能的最高的1/3或1/24,具体取决于使用者于驱动程式附带的NVIDIA控制台上的设定(预设为1/24)[30],但是其它型号的显示核心,双精度效能都被固定为单精度的1/24;[31]基于Maxwell架构的显示核心,更被压低至1/32。[32]
  • 6 GDDR5视讯记忆体的资料传输时脉速率是其运作时脉的四倍,DDR3记忆体的则为两倍。
  • 7 列表数据绝大部分来源于辉达的公版显示卡的资料,实际数据会因不同厂商推出的非公版型号而有所出入;另外GF108、GF117以及GF119的时脉数据标示为:CUDA核心时脉/渲染器时脉
  • 8 GeForce GTX 750[33]以及GeForce GTX 750 Ti采用的是‘Maxwell’架构的显示核心[34][35][36],详见NVIDIA GeForce 800系列
  • 9 GeForce GT 740 只有非公版显示卡,实际显示核心、视讯记忆体之时脉会与NVIDIA发布的资料有所差异。[37]
更多信息 型号, 推出年分 ...

行动平台显示核心

某些笔记型电脑或低功耗装置制造商会使用特定规格,特别是低端入门型号的显示核心。因此该列表中低端型号的显示核心的数据仅供参考,实际数据取决于装置制造商。

更多信息 型号, 推出年分 ...

参见

脚注

外部链接

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads