热门问题
时间线
聊天
视角
GeForce 900系列
来自维基百科,自由的百科全书
Remove ads
GeForce 900系列,是英伟达研发的图形处理器产品系列,用于台式机平台和笔记本电脑平台。此代显示核心将采用第二代Maxwell微架构(芯片代号将以‘GM’开头),以苏格兰理论物理学家詹姆斯·克拉克·麦克斯韦的名字命名。2010年,NVIDIA将此时代Maxwell核心的首发旗舰级产品命名为GeForce 900系列,包含桌面平台以及移动平台。 [1][2]
Remove ads
概观
2010年9月NVIDIA宣布下一代显示核心架构‘Maxwell’。[3]首款基于‘Maxwell’架构的消费级显示核心的产品将于2014年早期发卖,是为GeForce GTX 750/750 Ti。[4]
第二代‘Maxwell’介绍了几种新技术: 动态超分辨力、第三代三角洲颜色压缩和多图元编程采样、Nvidia VXGI(Real-Time-Voxel-Global Illumination) 和MFAA。[5]此外增加了HDMI 2.0支持。[6]
架构特性
GeForce GTX 980/970使用“GM204”核心,是Maxwell GPU架构的第二作。它们分别采用了GM204的两个细分型号 GM204-400-A1 以及 GM204-200-A1 芯片,拥有52亿的晶体管规模,芯片面积为398平方毫米(此为NVIDIA公布数据)。由于有制造“GK110”这种大面积芯片的经验,加上面向消费级游戏应用市场而削减该领域中甚少使用的双精度浮点数运算电路单元,使得GPU可以更专精于安放游戏应用更常用的单精度浮点运算电路单元、纹理单元及渲染输出单元。这些因素成了“GM204”芯片用于游戏娱乐应用时,拥有卓越性能功耗比的重要因素之一。
与Kepler架构的GK110相比,尽管GM204架构的运算资源总量从2880个ALU(NVIDIA称为CUDA核心)分别下降到了GeForce GTX 980的2048以及GeForce GTX 970的1664个,Texture Filter Unit则由240个下降到了128个以及104个,但构成后端的ROP在GM204当中被提升到了64个,更庞大的ROP阵列为GM204带来了理想的像素处理能力。
Remove ads
GeForce GTX 980/970均拥有4个64bit双通道显存控制器组合形成的256bit显存控制单元,也都采用了4096MB的尺寸的显存体系。
新的SMM单元较之原先的SMX单元来了一次结构变动,在保留完整的几何前端的前提下,SMM数组在内部将ALU团簇再次划分成了4个并行的独立子团簇SM,每个SM包含32个ALU,并且都拥有独立的Scheduler/Dispatch以及Register,每两组SM共享一组统一的Texture/L1 D\$ cache,这与SMX单元192个ALU共享同一组Scheduler、Dispatch、L1 D\$ cache以及Register形成了鲜明的对比,而且也进一步提升了每个ALU所能够获得的Register资源量。
GeForce 900系列目前支持OpenGL 4.5、DirectX 11.3以及OpenCL 1.2,未来可支持DirectX 12。[7][8][9]
产品介绍
基于Maxwell架构的显示核心GM204的首发产品是GeForce GTX 970和GTX 980,它们均于2014年9月19日发布。随后还有GeForce GTX 960,该产品于2015年初发布;之后还有2015年6月1日发布的GTX 980 TI以及8月20日发布的GTX 950。而顶级显示核心GM200,被冠以GeForce GTX TITAN X的名号于2015年3月5日公布,除了TITAN X之外,其余的显卡会有不同的厂商生产自制显卡,还会有背板支撑。
押后发表的GeForce GTX 960、950还支持HEVC/H.265硬件解码,以前发表的型号则只支持HEVC/H.265硬件编码。
- GeForce GTX TITAN X[10] - 2015年3月GDC大会上NVIDIA公布此显卡的消息,显示核心代号“GM200”,首款产品是为GeForce GTX TITAN X。此显示核心拥有80亿个晶体管,搭配12GiB容量的显示内存;[11]仍使用台积电28纳米制程;供电仅使用了6pin+8pin的辅助供电,功耗250瓦,而12GiB的显示内存容量,则各布置于显卡的正背两面,外观保留和TITAN系列的一贯风格但从银色变成了哑光黑,相对于上一代的TITAN(Black、Z)以及GTX980而言没有背板支撑和散热。[12][13][14]另外,GTX TITAN X还将配备低温散热风扇停转的功能。[15]
- GeForce GTX 980 TI - 2015年6月1日发售,核心代号与GTX TITAN X一样是“GM200”、80亿个晶体管、6GiB显示内存,但一共只有2816个CUDA核心、192个纹理贴图单元、96个输出渲染单元,不过其余的规格与热设计功耗跟TITAN X大致相同,而且与GTX TITAN X相比性能也相差不多,其它的厂商会生厂自制显卡,显示主频会比公板还要高,也会有背板支撑。
- GeForce GTX 980[16]和GeForce GTX 970[17] - 两者均于2014年9月18日发售,核心代号均为“GM204”之显示核心(内置52亿个晶体管)以及4GiB、等效主频7010MHz的GDDR5显示内存。但GTX 980的GM204显示核心是完整版的,共16组SMM数组(一共2048个CUDA核心、128个纹理贴图单元)、64个渲染输出单元、2MiB二级缓存,存储器位宽为256比特,带宽224GB/s;而GTX 970的GM204核心则相对完整的GTX 980而言删减了3组SMM数组(这里共384个CUDA核心、24个纹理贴图单元(TMU))以及8个输出渲染单元(ROP)、二级缓存也从2MiB缩减至1.75MiB,存储器位宽为224位+32位的结构,带宽192GB/s+28GB/s。
- GeForce GTX 960[18]以及GeForce GTX 950[19] - 前者2015年1月22日发售,核心代号“GM206”,内置有29.4亿颗晶体管,完整规格,拥有8组SMM单元(共1024个CUDA核心、64个纹理贴图单元)、32个输出渲染单元(ROP),使用2GiB或4GiB容量、等效主频7010MHz规格的GDDR5显示内存,存储器位宽128位、带宽112GB/s;除了核心主频以外,规格上几乎是“GM204”的一半,用作取代GeForce GTX 760及其派生型号。而GTX 950则于2015年8月20日发售,核心代号与GTX 960的同为“GM206”,但比GTX 960的少了两组SMM单元(而ROP单元数量维持不变),主频参数也比GTX 960的来得低,是GeForce 900系列中端产品,用来取代750/750TI,只不过热设计功耗进一步降低到90W,仅需要接一个6PIN外挂电源接头;此款型号恢复了在650/650TI以及750/750TI中取消的SLI功能。
Remove ads
GeForce GTX 970 的规格参数争议主要在于显示内存、ROP单元、二级缓存的数量/容量上实际产品与发布宣传时公布的不一致。其中,特别是显示内存访问结构,因为没详细公布出来,而导致用家在一些使用场合上观察到显示内存访问性能上有差异:GTX 970搭载了4GiB容量的GDDR5显示内存,而实际上只有3.5GiB的容量可以全速访问,越过了3.5GiB容量的界限以后的区块几乎没有访问动作,尽管一般使用甚少会越过此界限,但使用这剩余的0.5GiB容量的显示内存访问性能明显下降了。其后越来越多的性能测试以及调查结果,使英伟达承认,GTX 970的显示内存的使用超过3.5GiB容量界限以后性能下降的事实,并对此做出解释道,显卡正式发售前没有事先通知或公布Maxwell架构的显示核心更精细的核心单元遮蔽方式(这种遮蔽方式更有利于良品率和成本控制)。[20][21][22][23]
显示核心硬件后端的参数,最初英伟达的发布会上显示,GTX 970和GTX 980是一样的。而实际上,970后端的ROP单元仅有56个而非980的64个,二级缓存也仅有1.75MiB而非980的2MiB,这些后端单元数量/容量上的差异导致了970上的4GiB显示内存寻址与980的有差异,使得4GiB中的3.5GiB可供显示核心全速访问,剩余的0.5GiB区段的性能只有全速3.5GiB区段的1/7。[24] 尽管这一结果不影响此前几乎所有的GTX 970性能测试结果,而英伟达也对规格参数错误一事做出道歉并承诺下次会准确公布各型号图形处理器的参数,并在驱动程序的开发上对GTX 970的显示内存使用作特别的优化,尽可能避免使用4GiB中最后512MiB的低速区段以减轻其性能冲击。[25]然而英伟达又改口称,因内部的沟通不畅,此前发布供GeForce900系列使用的驱动程序中实际已对GTX 970的显示内存使用做过优化,不再需要特别对待。[26]而英伟达的讨论社区中也有工作人员称会对欲退货的GTX 970买家提供协助[26][27]2015年2月26日,英伟达的CEO黄仁勋在英伟达的官方博客上对该起失误事件做出正式道歉。[28][29]
英伟达发布的勘误声明中,表示SMM中各单元是可进行单独的遮蔽,每一个单元包括256KiB的二级缓存和8个ROP单元后端,而遮蔽这些单元并不影响显示内存的存储器控制器。[30]这样做的代价是存储器总线被分为高速区段和低速区段,这两段不能够同时进行访问操作,最多只能在一个区段进行读操作的同时另一区段进行写操作,不能同时进行访问操作,是因为二级缓存和ROP单元都管理著这些GDDR5存储器控制器以共享在两个GDDR5存储器控制器和它们自己之间的读循环通道和资料写入总线,即一个64位的存储器控制器管辖最后512MiB慢速区段的和邻近的3.5GiB高速区段的512MiB,共同由一组8个ROP单元和这0.25MiB的二级缓存连接使用。[30]这样做使得GTX 970可使用4GiB的显示内存而非3GiB。简单来说就是GTX 970上256比特宽度的GDDR5存储器总线,有224位连接3.5GiB的高速区段,有32位连接512MiB的低速区段。[30][23]
部分早前购买GTX 970的用家,以及留意到这起事件的律师行,也就这起参数争议事件涉嫌侵犯用户知情权或对英伟达发起集体诉讼,[31][32]尽管实际使用表明GTX 970显示内存的特殊结构对性能影响并不高,只有1~3%,而非画面卡顿[33][34],而英伟达此前也有GeForce GTX 660使用非对称显示内存的先例。[35][36]
Remove ads
NVIDIA标榜“Maxwell”GPU微架构是可以完整支持DirectX 12。[37][38][39]但是,首款使用DirectX 12的游戏——奇点灰烬,其开发商——Oxide Games游戏工作室,在游戏的开发阶段,发现“Maxwell”架构GPU的显卡,并不能在DirectX 12下发挥出应有的性能(相比DirectX 11下并没有明显的性能进步)。[40][41]
Oxide Games表示,尽管NVIDIA的官方文宣上宣称GeForce 900系列GPU能使用DirectX 12的所有功能,但是Maxwell的GPU,实际上并不能使用DirectX 12的核心功能——异步运算以及异步渲染流水线,[38]而NVIDIA为了实现这些新功能,在驱动程序层级中安插了Shim(一种提供应用程序接口(即API)的驱动库)中介层来实现它们,但这种实现方式,需要占用一定的GPU运算资源。简单来说,NVIDIA采用了软件的方式实现DirectX 12的部分核心功能,因此会造成性能上的折损。[41]
而与之相对,Oxide Games则表示,AMD的GCN GPU架构中已经包含了异步运算及渲染的硬件电路,[42]因此可以无需透过中介层,驱动程序可直接调用硬件电路单元来实现DirectX 12,尽管支持的功能层级是基本的Feture Level 12_0,因此GCN架构的GPU可以凭借DirectX 12在性能测试抑或是游戏性能中获得较为明显的性能提升。[41][43][44]
Oxide Games称在于NVIDIA磋商解决性能问题时,却遭到NVIDIA方面向工作室的施压,要求在游戏性能测试中不能使用DirectX 12的异步运算功能,因此工作室方面认为,NVIDIA的GeForce 900系列GPU面对对手AMD同级别的、对DirectX 12的核心功能能顺利支持的GCN架构GPU时会处于劣势。[40]不过在2015年8月4日,Oxide Games方面解释,“我们确实与NVIDIA的人员交流关于异步运算方面的话题,确实,驱动程序方面尚未能完全实现它,但驱动程序却报告它能够实现之”[45],NVIDIA也正与Oxide Games合作,令900系列能够实现异步运算。由于不像AMD的GCN架构以硬件电路实现异步运算,NVIDIA将必须仰赖驱动程序及其中介层,实现软件层级的队列及软件层级的任务分发器,来转发异步运算任务到其GPU的硬件任务调度器上,令其胜任将运算负荷能分配至GPU中正确的电路单元上的工作。[46]
本系列同时还有针对移动平台发布的GeForce GTX 970M和GTX 980M以及GTX 960M GTX 965M ,GTX 950M 和 GeForce 940M 930M 920M ,他们在桌面型平台发布之后跟进。搭载这数款型号的笔记本电脑现已上市,后期会有从桌面型移植到移动平台的980 Notebook。
NVIDIA于2016年3月无预警推出3款MX型号显示核心——920MX、930MX及940MX,同时也推出910M。930MX与940MX者架构与930M及940M相同,920MX架构则放弃Kelper/Fermi架构改用Maxwell架构;910M则使用Kelper/Fermi架构,然而MX型号的存储器及处理器主频比M型号高,同时存储器也支持GDDR5,不过有些厂商为了节省成本则仍然使用DDR3存储器。
芯片规格
注:
- 1 统一渲染器/流处理器数量 : 纹理映射单元数量 : 渲染输出单元(ROP单元)数量
- 2 像素填充率的计算:ROP单元数量乘以基准核心主频
- 3 纹理填充率的计算:纹理映射单元数量乘以基准核心主频
- 4 单精度浮点数运算性能的计算:渲染器/CUDA核心/流处理器的数量×2,再乘以基准核心主频
- 5 GTX 980,GTX 970,GTX 960以及GTX 950的双精度浮点数运算性能是单精度浮点数运算性能的1/32[47]
- 6 NVIDIA SLI支持最多4块相同GPU的单GPU的显卡组成4路SLI配置,除此以外多块相同GPU的显卡可组成3路或双路链接配置。然而由于双GPU的显卡已经相当于双路SLI配置,这类显卡组成4路SLI仅需另外一块可识别的相同的双GPU显卡即可,但不能组成3路SLI的配置。
- 7 由于遮蔽了一个或数个区块的二级缓存/ROP单元而不影响所有对应的存储器控制器,显示内存会被分段。一个区段在写入资料时另一区段也必须保持读取资料以达成两者的最高性能,这个性能数值不会高于纯读取或纯写入时的性能数值,在下表中存储器总线已被分别显示(“224+32”的样式)
Remove ads
参见
脚注
外部链接
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads