热门问题
时间线
聊天
视角

GeForce 700系列

来自维基百科,自由的百科全书

Remove ads

GeForce 700 系列NVIDIA公司在2013年发布的第十五代GeForce图形处理器,用于笔记本电脑和台式机。它主要是使用于GeForce 600系列Kepler架构的改进版(芯片代号以‘GK’开头),不过,和GeForce 600系列一样,一些低端型号则仍使用Fermi架构或是其制程升级版。2013年4月,已经有部分GeForce 700系列的移动版显示核心悄然发布,但都是旧有显示核心的更名版。2013年5月23日,首款基于GeForce 700系列显示核心的显卡GeForce GTX 780正式发布,同时也将此前划分至GeForce 600系列的GeForce GTX TITAN重新划分到GeForce 700系列中。[注 1]2014年2月19日,NVIDIA随着Maxwell架构发布推出GeForce GTX 750与GeForce GTX 750 Ti,宣称能以更少的功耗达到与GeForce GTX 480同等的性能。[2]

事实速览 发布日期, 代号 ...
Remove ads

概观

NVIDIA GeForce 700系列的首款显示核心,代号‘GK110’,特别针对通用运算的性能提升而设计,其拥有71亿颗晶体管,而且还会根据负载需要以及各流处理器负载情况来分派运算任务,从而加强并发多任务性能,并尽可能来优化性能能耗比表现。

在‘GK110’上,寄存器堆和2级缓存(L2 cache)的容量和带宽比此前的型号都有所提升。与‘Fermi’架构相比,在SMX/SM流处理器数组的层面上,‘GK110’的寄存器堆容量增至256KB,由65536个32位的寄存器组成。‘GK110’的2级缓存的容量增加到1.5MB,两倍于费米的‘GF110’。2级缓存和寄存器堆的带宽与‘Fermi’架构相比提升了两倍,使得在需要为每条线程分配更多可用寄存器资源时导致的寄存器匮乏的情况下的性能也得到提升,而且,GK110上每条线程可进行寻址、搬移的寄存器总数,也由每线程63个寄存器提升到每线程255个寄存器。

GK110上,NVIDIA也修改了GPU的纹理缓存,使其不仅只用于图形处理,还可以用于通用运算。48KB容量大小的纹理缓存,在执行通用运算时作为只读缓存,专门用于未对齐的存储器访问操作。此外,错误侦测功能也被加入,使得依赖于ECC纠错的负载任务更稳定安全。[3]

对比GeForce 600系列,GeForce 700系列的部分型号的显示内存由上代0.33ns颗粒改用了更低延迟的0.28ns颗粒,等效频率由6000MHz上升到7000MHz,GPU主频亦有所上升。此外,GeForce 700系列的部分型号还引入GPU Boost 2.0,令GPU可根据负载需要自动加速到更高频率。

未来英伟达还会透过驱动程序的支持,在‘Fermi’、‘Kepler’、‘Maxwell’显示核心上实现DirectX 12。[4]

Remove ads

特性

NVIDIA GeForce 700系列包括来自‘GK104’和‘GK110’的特性。GeForce 700系列中基于Kepler架构的各款型号根据市场定位需要加入了以下功能特性。

来自‘GK104’的特性:

  • PCI Express 3.0
  • DisplayPort 1.2
  • HDMI 1.4a 4K x 2K 视频输出
  • Purevideo VP5硬件视频加速(最高支持4K x 2K的H.264解码)
  • 硬件H.264编码器(NVENC)
  • 支持最多4个2D荧幕输出,或是3荧幕3D视频输出(NV Surround)
  • 无边界纹理
  • GPU Boost
  • TXAA抗锯齿
  • 台积电28纳米制程

来自‘GK110’的新特性:

  • GPU Boost 2.0
  • 针对通用运算而进行的SMX提升改进
  • CUDA 3.5
  • 随机搬移指令(Shuffle)
  • 动态并发
  • Hyper-Q(Hyper-Q的MPI功能仅为Tesla系列保留)
  • 网格管理单元
  • NVIDIA GPUDirect(GPU Direct的RDMA功能仅保留在Tesla和Quadro系列)
Remove ads

针对运算而进行的SMX提升改进

NVIDIA在设计‘GK110’时,重在提升其运算性能。‘GK110’与‘GK104’最大的改变在于,‘GK104’的SMX数组中,每个SMX数组拥有8个CUDA核心(流处理器)专门用于FP64(双精度浮点数)运算操作,而‘GK110’中每个SMX数组拥有64个CUDA核心用于FP64运算操作,这使得‘GK110’中每个SMX数组的双进度浮点数运算作业吞吐量可达8倍于一个‘GK104’的SMX数组。‘GK110’的SMX数组的全局寄存器文件空间也有增加,达256KB。纹理缓存也有改进,48KB的空间,可在通用运算中充当只读缓存。[3]

随机搬移指令

在低级编程语言层面上,‘GK110’增加了额外的指令和操作,来求得更好的性能。新增的随机搬移指令,允许线程可访问共享资料而无需到存储器中访问,使处理进程比以往的加载/共享/存放模型来得更快。原子操作也被彻底分解,这样做除了加速原子操作执行速度之余,还加入一些FP64的操作使其获得对FP64资料的处理能力,而此前仅支持FP32单精度浮点数的资料。[3]

Hyper-Q

在执行通用运算时,Hyper-Q将‘GK110’的硬件工作队列从1个扩展到32个。在‘Fermi’架构时代,一个工作队列无论它是否会动用显示核心内每个SM数组,都会在队列任务处理完毕前占用这些数组,这样做就会有部分SM数组处于闲置,而造成效率低下。‘GK110’上,由于拥有32个工作队列,在不同的情况下,能够将不同的任务流输入至原本闲置的SMX数组中,增进单元复用率来达成运算资源利用优化。Hyper-Q不仅在显示核心内负责任务队列分派作用,还能与MPI通信以及建立映射(在高性能运算领域里频繁使用的一个通信界面),来加强Hyper-Q的在高性能运算方面的功用。此前基于MPI的解题运算步骤,多为多CPU系统而设计,利用显示核心作运算加速的话,由于一般显示核心仅能对图形任务进行调度,对显示核心内的运算单元等进行通用运算任务分配仍需要依赖CPU处理,这样又加重了CPU的负担,而且显示核心也没有被充分利用,这样就成为性能提升的一大瓶颈,而Hyper-Q则可以解决这个瓶颈,GPU可自动根据负荷需要对SMX数组执行通用运算任务分配。提升MPI任务数量,可在这些求解运算步骤中充分利用Hyper-Q,提升效率进而提升性能,而且,运算程序还无需做修改或只需小许修改。[3]

Remove ads

Dynamic Parallelism

Dynamic Parallelism是使显示核心根据需要对Grid的运算结果进行判别并在显示核心内置立新的Kernel。‘Fermi’时代,当前一个Kernel执行完毕后只有CPU可以回收判别运算结果然后才为显示核心分配新的Kernel,这使得需要花费不少的资源来维持显示核心与CPU之间的通信。在核心加入判别运算结果以及分派Kernel能力,使其它的Kernel也能按照接到CPU发出的运算请求的Kernel去派遣分配,那样显示核心就可以节省大量与CPU通信的资源以及时间,降低延时、提升显示核心内部的Kernel密度、任务执行连贯度以及低负载高密集度任务中的运算单元复用率,同时也能解放CPU,使CPU能有更多时间处理其它任务。[3]

Gird管理单元

Dynamic Parallelism,由Grid Management Unit(GMU,Gird管理单元)用作管理Grid以及对将要运行的Gird进行优先级调度,可以暂停新网格和队列的分派,并且在网格准备执行时方会解除网格的暂停等待状态,为准许像是动态并发能力等高负载的功能的运行提供更好的灵活性。在Kepler上的二级仲裁机制CUDA Work Distributor(CUDA工作分发器,CWD)持有准备可被分派多达32个活动的Grid,双倍于‘Fermi’的CWD,GMU对其收到的Grid进行执行/停止、回收、判断、暂停等待以及重新排序等作业。‘Kepler’上的CWD经由一种双向链路与GMU通信,以使得GMU可以暂停新Grid的分派并在需要时令Grid继续执行。GMU也与Kepler的SMX数组直接连接,以允许开启额外工作的Grid以动态并发的方式发送新工作回GMU,令其对新工作进行优先级调度并分派。如果分派了额外工作负载的核心暂停了,GMU将使其进入不活动状态,直到从属的工作已经完成方会调回。[5]

Remove ads

NVIDIA GPUDirect

NVIDIA GPUDirect™特性,允许在一台电脑上或数台服务器中的多颗GPU连接为一个网络,而且它们之间可直接交换资料而无需经过CPU或系统存储器。GPUDirect的RDMA特性允许第三方设备,像是固态硬盘、网卡以及IB适配器等在多GPU网络上的同一系统中直接访问显示内存,最重要的是,可以降低MPI发送到或接收自其它GPU的显示内存的信息。它也降低了系统存储器的带宽需求,减低GPU的DMA引擎的压力并使其可用于其它CUDA任务上。Kepler‘GK110’也支持其它GPUDirect特性,包括点对点(P2P)以及视频专用GPUDirect。

DirectX 12

GeForce 700全系列显示核心的显卡上皆可以支持部分DirectX 12功能。英伟达在基于DirectX 11的GPU上透过驱动程序支持DirectX 12的API。[4]

产品介绍

桌面平台

Thumb
技嘉推出的GeForce GTX 770显卡
Thumb
GeForce GTX 780显卡的电路板

目前基于‘Kepler’显示核心的有6款产品推出,GeForce GTX 760、770、780、780 Ti、TITAN以及TITAN Black。GTX 760和770采用GK104核心。GTX 780采用与TITAN相同的GK110核心,仅在纹理单元数量,主频以及驱动程序特性上有不同。780Ti以及TITAN Black搭载完整版‘GK110’显示核心,两者的驱动程序特性也有所不同。

  • GeForce GTX TITAN[6]以及GeForce GTX TITAN Black[7]- 前者于2013年2月19日推出。[8]GeForce GTX TITAN采用和NVIDIA Tesla K20X相同的,核心代号为GK110的显示核心:拥有71亿个晶体管,2688个CUDA核心,48个ROP单元,224个纹理单元,384位的存储器位宽和6GB容量的GDDR5显示内存,双精度浮点运算速率和单精度浮点运算速率的比率维持在设计的1/3,而非GTX690/680/670等限制在1/24的比率。然而在GeForce GTX TITAN的驱动程序中,默认双精度浮点运算速率和单精度浮点运算速率的比率仍为1/24(但可以手动在NVIDIA控制面板中开启全速双精度浮点运算),核心主频和着色器主频均为837MHz(开启全速双精度浮点运算后降为732MHz),等效显示内存主频为6008MHz,存储器带宽288.4GB/s。除此以外还支持新的电源管理GPU Boost 2.0,提供相对更自由的电压调整和更细致的主频和电压调整。外接辅助供电采用6Pin+8Pin的形式。NVIDIA的宣传口号:‘DNA Of the World's Fastest Supercomputer’。在多个性能测试中远超GeForce GTX 680以及对手AMD的Radeon HD 7970 GHz Edition。[9][10][11]但是,NVIDIA却严格限制合作厂商生产非公版的GeForce GTX Titan。[12]后续的升级版‘GTX TITAN Black’已于2014年2月18日推出,规格更新至和Quadro K6000以及Tesla K40X一致的完整版‘GK110’显示核心,拥有2880个流处理器,240个纹理单元,默认主频也提升到889MHz(全部核心加速时为980MHz),而其余规格与GTX TITAN一致,其显卡外观上仅散热器金属罩的标识相异。[13][14]
  • GeForce GTX 780[15]以及GeForce GTX 780 Ti[16] - 前者于2013年5月23日发布,相比GTX TITAN,流处理器数量进一步削减至2304个(1组SMX单元),纹理单元也削减至192个,但其它基本规格和GTX TITAN一致;公版显卡的显示内存容量也削减到3GB,核心默认主频则小幅上升至863MHz(全部核心加速时可达900MHz),也阉割了双精度浮点数运算的性能(1/24比率),相对GTX TITAN,NVIDIA允许合作厂商推出非公版显卡。[17]在GTX TITAN发布后续升级版GTX TITAN Black前,消费级的完整版‘GK110’显示核心出现在2013年11月7日推出的GTX 780 Ti上,规格和后续的GTX TITAN Black的基本一致,但公版显卡的显示内存容量也只有3GB,而且和GTX 780一样阉割双精度浮点运算性能,核心主频上升至876MHz(加速可达928MHz),性能表现稍胜于对手AMD的Radeon R9 290X[18]但是由于GTX 780 Ti的规格和GTX 780的规格相差非常小(仅供电不一致),因此有合作厂商曾将用于GTX 780的电路板用于GTX 780 Ti上,但由于供电规格的差异而导致这批使用GTX 780电路板的GTX 780 Ti会有显卡烧毁的危险。而对于问题显卡,厂商也愿意对购买了这批显卡的用户免费更换新批量的显卡。[19][20][21]
  • GeForce GTX TITAN Z[22] - 2014年3月25日由黄仁勋于NVIDIA GTC 2014(GPU年度技术大会)上公布,GTX TITAN Black的双芯版本,单张电路板上搭载两颗完整规格的‘GK110’显示核心,5760个流处理器,480纹理单元,56个ROP单元,12GB容量的GDDR5显示内存,2×384位的存储器位宽,但具体的主频仍没有公布,英伟达的官方建议售价高达2999美元。[23]但正式贩售日期已数度延期,最终于2014年5月28日正式贩售,维持和发布时硬件规格以及价格。尽管公版显卡的性能上略为不及对手AMD Readeon R9 295X2公版,但最大仅375W的热设计功耗以及发热控制(仅使用风冷)要比对手的500W优胜,但在散热器的噪音控制方面不及对手。[24][25]
Remove ads

移动平台

Thumb
使用MXM接口的笔记本电脑用GTX 780M

英伟达首先推出的使用于移动计算机的GeForce 710M[26]和GeForce GT 730M[27]均为上一代产品的更名版本。后续陆续发布了低端入门、中端以及高端的行动GPU,见下面的芯片规格表。

芯片规格

桌面型显示核心

GeForce 700系列的桌面型显示核心,首发实际上是GeForce GTX TITAN,稍后是GeForce GTX 780,规格进一步删减、价格更低的产品都在GeForce GTX 780发布以后陆续发布并上市。和GeForce 600系列一样,几乎所有的‘Kepler’架构的显示核心尽管支持DirectX 11.1的应用程序界面,但硬件支持度上仅支持到Direct3D 11.1的硬件特性层面11_0,Direct3D硬件特性层面11_1并没有完整支持,11_1相比11_0多出的4个特性在‘Kepler’的硬件上没有予以支持。[28][29]即使后续可以支持Direct3D 12,也只能支持到Feture Level 11_0的功能级别。

  • 1 统一渲染器/流处理器数量 : 纹理映射单元数量 : 渲染输出单元(ROP)数量
  • 2 像素填充率的计算:ROP的数量乘以基准核心时钟频率(主频单位Hz),单位像素数每秒(P/s)。
  • 3 纹理填充率的计算:TMU的数量乘以基准核心时钟频率(主频单位Hz),单位纹理数每秒(T/s)。
  • 4 单精度浮点数运算性能的计算:两倍渲染器的数量然后乘以基准核心时钟频率(主频单位Hz),单位FLOPS
  • 5 双精度浮点数运算性能的计算:GeForce GTX TITAN的为单精度浮点数运算性能的最高的1/3或1/24,具体取决于用户于驱动程序附带的NVIDIA控制台上的设置(默认为1/24)[30],但是其它型号的显示核心,双精度性能都被固定为单精度的1/24;[31]基于Maxwell架构的显示核心,更被压低至1/32。[32]
  • 6 GDDR5显存的资料传输时钟频率是其运作主频的四倍,DDR3存储器的则为两倍。
  • 7 列表数据绝大部分来源于英伟达的公版显卡的资料,实际数据会因不同厂商推出的非公版型号而有所出入;另外GF108、GF117以及GF119的主频数据标示为:CUDA核心主频/渲染器主频
  • 8 GeForce GTX 750[33]以及GeForce GTX 750 Ti采用的是‘Maxwell’架构的显示核心[34][35][36],详见NVIDIA GeForce 800系列
  • 9 GeForce GT 740 只有非公版显卡,实际显示核心、显存之主频会与NVIDIA发布的资料有所差异。[37]
更多信息 型号, 推出年分 ...

移动平台显示核心

某些笔记本电脑或低功耗设备制造商会使用特定规格,特别是低端入门型号的显示核心。因此该列表中低端型号的显示核心的数据仅供参考,实际数据取决于设备制造商。

更多信息 型号, 推出年分 ...

参见

脚注

外部链接

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads