热门问题
时间线
聊天
视角
GeForce 900系列
来自维基百科,自由的百科全书
Remove ads
GeForce 900系列,是辉达研发的图形处理器产品系列,用于桌上型电脑平台和笔记型电脑平台。此代显示核心将采用第二代Maxwell微架构(晶片代号将以‘GM’开头),以苏格兰理论物理学家詹姆斯·克拉克·麦克斯韦的名字命名。2010年,NVIDIA将此时代Maxwell核心的首发旗舰级产品命名为GeForce 900系列,包含桌面平台以及行动平台。 [1][2]
Remove ads
概观
2010年9月NVIDIA宣布下一代显示核心架构‘Maxwell’。[3]首款基于‘Maxwell’架构的消费级显示核心的产品将于2014年早期发卖,是为GeForce GTX 750/750 Ti。[4]
第二代‘Maxwell’介绍了几种新技术: 动态超分辨力、第三代三角洲颜色压缩和多图元程式设计采样、Nvidia VXGI(Real-Time-Voxel-Global Illumination) 和MFAA。[5]此外增加了HDMI 2.0支援。[6]
架构特性
GeForce GTX 980/970使用“GM204”核心,是Maxwell GPU架构的第二作。它们分别采用了GM204的两个细分型号 GM204-400-A1 以及 GM204-200-A1 芯片,拥有52亿的晶体管规模,晶片面积为398平方毫米(此为NVIDIA公布数据)。由于有制造“GK110”这种大面积晶片的经验,加上面向消费级游戏应用市场而削减该领域中甚少使用的双精度浮点数运算电路单元,使得GPU可以更专精于安放游戏应用更常用的单精度浮点运算电路单元、纹理单元及渲染输出单元。这些因素成了“GM204”晶片用于游戏娱乐应用时,拥有卓越性能功耗比的重要因素之一。
与Kepler架构的GK110相比,尽管GM204架构的运算资源总量从2880个ALU(NVIDIA称为CUDA核心)分别下降到了GeForce GTX 980的2048以及GeForce GTX 970的1664个,Texture Filter Unit则由240个下降到了128个以及104个,但构成后端的ROP在GM204当中被提升到了64个,更庞大的ROP阵列为GM204带来了理想的像素处理能力。
Remove ads
GeForce GTX 980/970均拥有4个64bit双通道显存控制器组合形成的256bit显存控制单元,也都采用了4096MB的尺寸的显存体系。
新的SMM单元较之原先的SMX单元来了一次结构变动,在保留完整的几何前端的前提下,SMM阵列在内部将ALU团簇再次划分成了4个并行的独立子团簇SM,每个SM包含32个ALU,并且都拥有独立的Scheduler/Dispatch以及Register,每两组SM共享一组统一的Texture/L1 D\$ cache,这与SMX单元192个ALU共享同一组Scheduler、Dispatch、L1 D\$ cache以及Register形成了鲜明的对比,而且也进一步提升了每个ALU所能够获得的Register资源量。
GeForce 900系列目前支援OpenGL 4.5、DirectX 11.3以及OpenCL 1.2,未来可支援DirectX 12。[7][8][9]
产品介绍
基于Maxwell架构的显示核心GM204的首发产品是GeForce GTX 970和GTX 980,它们均于2014年9月19日发布。随后还有GeForce GTX 960,该产品于2015年初发布;之后还有2015年6月1日发布的GTX 980 TI以及8月20日发布的GTX 950。而顶级显示核心GM200,被冠以GeForce GTX TITAN X的名号于2015年3月5日公布,除了TITAN X之外,其馀的显示卡会有不同的厂商生产自制显卡,还会有背板支撑。
押后发表的GeForce GTX 960、950还支援HEVC/H.265硬体解码,以前发表的型号则只支援HEVC/H.265硬体编码。
- GeForce GTX TITAN X[10] - 2015年3月GDC大会上NVIDIA公布此显示卡的消息,显示核心代号“GM200”,首款产品是为GeForce GTX TITAN X。此显示核心拥有80亿个电晶体,搭配12GiB容量的显示记忆体;[11]仍使用台积电28奈米制程;供电仅使用了6pin+8pin的辅助供电,功耗250瓦,而12GiB的显示记忆体容量,则各布置于显示卡的正背两面,外观保留和TITAN系列的一贯风格但从银色变成了哑光黑,相对于上一代的TITAN(Black、Z)以及GTX980而言没有背板支撑和散热。[12][13][14]另外,GTX TITAN X还将配备低温散热风扇停转的功能。[15]
- GeForce GTX 980 TI - 2015年6月1日发售,核心代号与GTX TITAN X一样是“GM200”、80亿个电晶体、6GiB显示记忆体,但一共只有2816个CUDA核心、192个纹理贴图单元、96个输出渲染单元,不过其馀的规格与热设计功耗跟TITAN X大致相同,而且与GTX TITAN X相比效能也相差不多,其它的厂商会生厂自制显卡,显示时脉会比公板还要高,也会有背板支撑。
- GeForce GTX 980[16]和GeForce GTX 970[17] - 两者均于2014年9月18日发售,核心代号均为“GM204”之显示核心(内建52亿个电晶体)以及4GiB、等效时脉7010MHz的GDDR5显示记忆体。但GTX 980的GM204显示核心是完整版的,共16组SMM阵列(一共2048个CUDA核心、128个纹理贴图单元)、64个渲染输出单元、2MiB二级快取,记忆体位宽为256位元,频宽224GB/s;而GTX 970的GM204核心则相对完整的GTX 980而言删减了3组SMM阵列(这里共384个CUDA核心、24个纹理贴图单元(TMU))以及8个输出渲染单元(ROP)、二级快取也从2MiB缩减至1.75MiB,记忆体位宽为224位元+32位元的结构,频宽192GB/s+28GB/s。
- GeForce GTX 960[18]以及GeForce GTX 950[19] - 前者2015年1月22日发售,核心代号“GM206”,内建有29.4亿颗电晶体,完整规格,拥有8组SMM单元(共1024个CUDA核心、64个纹理贴图单元)、32个输出渲染单元(ROP),使用2GiB或4GiB容量、等效时脉7010MHz规格的GDDR5显示记忆体,记忆体位宽128位元、频宽112GB/s;除了核心时脉以外,规格上几乎是“GM204”的一半,用作取代GeForce GTX 760及其衍生型号。而GTX 950则于2015年8月20日发售,核心代号与GTX 960的同为“GM206”,但比GTX 960的少了两组SMM单元(而ROP单元数量维持不变),时脉参数也比GTX 960的来得低,是GeForce 900系列中阶产品,用来取代750/750TI,只不过热设计功耗进一步降低到90W,仅需要接一个6PIN外挂电源接头;此款型号恢复了在650/650TI以及750/750TI中取消的SLI功能。
Remove ads
GeForce GTX 970 的规格参数争议主要在于显示记忆体、ROP单元、二级快取的数量/容量上实际产品与发布宣传时公布的不一致。其中,特别是显示记忆体存取结构,因为没详细公布出来,而导致用家在一些使用场合上观察到显示记忆体存取效能上有差异:GTX 970搭载了4GiB容量的GDDR5显示记忆体,而实际上只有3.5GiB的容量可以全速存取,越过了3.5GiB容量的界限以后的区块几乎没有存取动作,尽管一般使用甚少会越过此界限,但使用这剩馀的0.5GiB容量的显示记忆体存取效能明显下降了。其后越来越多的效能测试以及调查结果,使辉达承认,GTX 970的显示记忆体的使用超过3.5GiB容量界限以后效能下降的事实,并对此做出解释道,显示卡正式发售前没有事先通知或公布Maxwell架构的显示核心更精细的核心单元遮蔽方式(这种遮蔽方式更有利于良品率和成本控制)。[20][21][22][23]
显示核心硬体后端的参数,最初辉达的发布会上显示,GTX 970和GTX 980是一样的。而实际上,970后端的ROP单元仅有56个而非980的64个,二级快取也仅有1.75MiB而非980的2MiB,这些后端单元数量/容量上的差异导致了970上的4GiB显示记忆体定址与980的有差异,使得4GiB中的3.5GiB可供显示核心全速存取,剩馀的0.5GiB区段的效能只有全速3.5GiB区段的1/7。[24] 尽管这一结果不影响此前几乎所有的GTX 970效能测试结果,而辉达也对规格参数错误一事做出道歉并承诺下次会准确公布各型号图形处理器的参数,并在驱动程式的开发上对GTX 970的显示记忆体使用作特别的最佳化,尽可能避免使用4GiB中最后512MiB的低速区段以减轻其性能冲击。[25]然而辉达又改口称,因内部的沟通不畅,此前发布供GeForce900系列使用的驱动程式中实际已对GTX 970的显示记忆体使用做过最佳化,不再需要特别对待。[26]而辉达的讨论社区中也有工作人员称会对欲退货的GTX 970买家提供协助[26][27]2015年2月26日,辉达的CEO黄仁勋在辉达的官方部落格上对该起失误事件做出正式道歉。[28][29]
辉达发布的勘误声明中,表示SMM中各单元是可进行单独的遮蔽,每一个单元包括256KiB的二级快取和8个ROP单元后端,而遮蔽这些单元并不影响显示记忆体的记忆体控制器。[30]这样做的代价是记忆体汇流排被分为高速区段和低速区段,这两段不能够同时进行存取操作,最多只能在一个区段进行读操作的同时另一区段进行写操作,不能同时进行存取操作,是因为二级快取和ROP单元都管理著这些GDDR5记忆体控制器以共用在两个GDDR5记忆体控制器和它们自己之间的读回圈通道和资料写入汇流排,即一个64位元的记忆体控制器管辖最后512MiB慢速区段的和邻近的3.5GiB高速区段的512MiB,共同由一组8个ROP单元和这0.25MiB的二级快取连接使用。[30]这样做使得GTX 970可使用4GiB的显示记忆体而非3GiB。简单来说就是GTX 970上256位元宽度的GDDR5记忆体汇流排,有224位元连接3.5GiB的高速区段,有32位元连接512MiB的低速区段。[30][23]
部分早前购买GTX 970的用家,以及留意到这起事件的律师行,也就这起参数争议事件涉嫌侵犯使用者知情权或对辉达发起集体诉讼,[31][32]尽管实际使用表明GTX 970显示记忆体的特殊结构对效能影响并不高,只有1~3%,而非画面卡顿[33][34],而辉达此前也有GeForce GTX 660使用非对称显示记忆体的先例。[35][36]
Remove ads
NVIDIA标榜“Maxwell”GPU微架构是可以完整支援DirectX 12。[37][38][39]但是,首款使用DirectX 12的游戏——奇点灰烬,其开发商——Oxide Games游戏工作室,在游戏的开发阶段,发现“Maxwell”架构GPU的显示卡,并不能在DirectX 12下发挥出应有的效能(相比DirectX 11下并没有明显的效能进步)。[40][41]
Oxide Games表示,尽管NVIDIA的官方文宣上宣称GeForce 900系列GPU能使用DirectX 12的所有功能,但是Maxwell的GPU,实际上并不能使用DirectX 12的核心功能——非同步运算以及非同步渲染管线,[38]而NVIDIA为了实现这些新功能,在驱动程式层级中安插了Shim(一种提供应用程式介面(即API)的驱动库)中介层来实作它们,但这种实作方式,需要占用一定的GPU运算资源。简单来说,NVIDIA采用了软体的方式实现DirectX 12的部分核心功能,因此会造成效能上的折损。[41]
而与之相对,Oxide Games则表示,AMD的GCN GPU架构中已经包含了非同步运算及渲染的硬体电路,[42]因此可以无需透过中介层,驱动程式可直接调用硬体电路单元来实作DirectX 12,尽管支援的功能层级是基本的Feture Level 12_0,因此GCN架构的GPU可以凭借DirectX 12在效能测试抑或是游戏效能中获得较为明显的效能提升。[41][43][44]
Oxide Games称在于NVIDIA磋商解决效能问题时,却遭到NVIDIA方面向工作室的施压,要求在游戏效能测试中不能使用DirectX 12的非同步运算功能,因此工作室方面认为,NVIDIA的GeForce 900系列GPU面对对手AMD同级别的、对DirectX 12的核心功能能顺利支援的GCN架构GPU时会处于劣势。[40]不过在2015年8月4日,Oxide Games方面解释,“我们确实与NVIDIA的人员交流关于非同步运算方面的话题,确实,驱动程式方面尚未能完全实作它,但驱动程式却报告它能够实作之”[45],NVIDIA也正与Oxide Games合作,令900系列能够实现非同步运算。由于不像AMD的GCN架构以硬体电路实现非同步运算,NVIDIA将必须仰赖驱动程式及其中介层,实现软体层级的队列及软体层级的任务分发器,来转发非同步运算任务到其GPU的硬体任务排程器上,令其胜任将运算负荷能分配至GPU中正确的电路单元上的工作。[46]
本系列同时还有针对行动平台发布的GeForce GTX 970M和GTX 980M以及GTX 960M GTX 965M ,GTX 950M 和 GeForce 940M 930M 920M ,他们在桌上型平台发布之后跟进。搭载这数款型号的笔记本电脑现已上市,后期会有从桌上型移植到行动平台的980 Notebook。
NVIDIA于2016年3月无预警推出3款MX型号显示核心——920MX、930MX及940MX,同时也推出910M。930MX与940MX者架构与930M及940M相同,920MX架构则放弃Kelper/Fermi架构改用Maxwell架构;910M则使用Kelper/Fermi架构,然而MX型号的记忆体及处理器时脉比M型号高,同时记忆体也支援GDDR5,不过有些厂商为了节省成本则仍然使用DDR3记忆体。
晶片规格
注:
- 1 统一渲染器/流处理器数量 : 纹理映射单元数量 : 渲染输出单元(ROP单元)数量
- 2 画素填充率的计算:ROP单元数量乘以基准核心时脉
- 3 纹理填充率的计算:纹理映射单元数量乘以基准核心时脉
- 4 单精度浮点数运算效能的计算:渲染器/CUDA核心/流处理器的数量×2,再乘以基准核心时脉
- 5 GTX 980,GTX 970,GTX 960以及GTX 950的双精度浮点数运算效能是单精度浮点数运算效能的1/32[47]
- 6 NVIDIA SLI支援最多4块相同GPU的单GPU的显卡组成4路SLI配置,除此以外多块相同GPU的显卡可组成3路或双路连结配置。然而由于双GPU的显示卡已经相当于双路SLI配置,这类显示卡组成4路SLI仅需另外一块可识别的相同的双GPU显示卡即可,但不能组成3路SLI的配置。
- 7 由于遮蔽了一个或数个区块的二级快取/ROP单元而不影响所有对应的记忆体控制器,显示记忆体会被分段。一个区段在写入资料时另一区段也必须保持读取资料以达成两者的最高效能,这个效能数值不会高于纯读取或纯写入时的效能数值,在下表中记忆体汇流排已被分别显示(“224+32”的样式)
Remove ads
参见
脚注
外部链接
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads