热门问题
时间线
聊天
视角

GeForce 700系列

来自维基百科,自由的百科全书

Remove ads

GeForce 700 系列NVIDIA公司在2013年發布的第十五代GeForce圖形處理器,用於筆記型電腦和桌上型電腦。它主要是使用於GeForce 600系列Kepler架構的改進版(晶片代號以『GK』開頭),不過,和GeForce 600系列一樣,一些低階型號則仍使用Fermi架構或是其製程升級版。2013年4月,已經有部分GeForce 700系列的行動版顯示核心悄然發布,但都是舊有顯示核心的更名版。2013年5月23日,首款基於GeForce 700系列顯示核心的顯示卡GeForce GTX 780正式發布,同時也將此前劃分至GeForce 600系列的GeForce GTX TITAN重新劃分到GeForce 700系列中。[注 1]2014年2月19日,NVIDIA隨著Maxwell架構發布推出GeForce GTX 750與GeForce GTX 750 Ti,宣稱能以更少的功耗達到與GeForce GTX 480同等的效能。[2]

快速預覽 發布日期, 代號 ...
Remove ads

概觀

NVIDIA GeForce 700系列的首款顯示核心,代號『GK110』,特別針對通用運算的效能提升而設計,其擁有71億顆電晶體,而且還會根據負載需要以及各流處理器負載情況來分派運算任務,從而加強並行多任務效能,並盡可能來最佳化效能能耗比表現。

在『GK110』上,暫存器堆和2級快取(L2 cache)的容量和頻寬比此前的型號都有所提升。與『Fermi』架構相比,在SMX/SM流處理器陣列的層面上,『GK110』的暫存器堆容量增至256KB,由65536個32位元的暫存器組成。『GK110』的2級快取的容量增加到1.5MB,兩倍於費米的『GF110』。2級快取和暫存器堆的頻寬與『Fermi』架構相比提升了兩倍,使得在需要為每條執行緒分配更多可用暫存器資源時導致的暫存器匱乏的情況下的效能也得到提升,而且,GK110上每條執行緒可進行定址、搬移的暫存器總數,也由每執行緒63個暫存器提升到每執行緒255個暫存器。

GK110上,NVIDIA也修改了GPU的紋理快取,使其不僅只用於圖形處理,還可以用於通用運算。48KB容量大小的紋理快取,在執行通用運算時作為唯讀快取,專門用於未對齊的記憶體存取操作。此外,錯誤偵測功能也被加入,使得依賴於ECC糾錯的負載任務更穩定安全。[3]

對比GeForce 600系列,GeForce 700系列的部分型號的顯示記憶體由上代0.33ns顆粒改用了更低延遲的0.28ns顆粒,等效頻率由6000MHz上升到7000MHz,GPU時脈亦有所上升。此外,GeForce 700系列的部分型號還引入GPU Boost 2.0,令GPU可根據負載需要自動加速到更高頻率。

未來輝達還會透過驅動程式的支援,在『Fermi』、『Kepler』、『Maxwell』顯示核心上實作DirectX 12。[4]

Remove ads

特性

NVIDIA GeForce 700系列包括來自『GK104』和『GK110』的特性。GeForce 700系列中基於Kepler架構的各款型號根據市場定位需要加入了以下功能特性。

來自『GK104』的特性:

  • PCI Express 3.0
  • DisplayPort 1.2
  • HDMI 1.4a 4K x 2K 視訊輸出
  • Purevideo VP5硬體視訊加速(最高支援4K x 2K的H.264解碼)
  • 硬體H.264編碼器(NVENC)
  • 支援最多4個2D熒幕輸出,或是3熒幕3D視訊輸出(NV Surround)
  • 無邊界紋理
  • GPU Boost
  • TXAA抗鋸齒
  • 台積電28奈米製程

來自『GK110』的新特性:

  • GPU Boost 2.0
  • 針對通用運算而進行的SMX提升改進
  • CUDA 3.5
  • 隨機搬移指令(Shuffle)
  • 動態並行
  • Hyper-Q(Hyper-Q的MPI功能僅為Tesla系列保留)
  • 網格管理單元
  • NVIDIA GPUDirect(GPU Direct的RDMA功能僅保留在Tesla和Quadro系列)
Remove ads

針對運算而進行的SMX提升改進

NVIDIA在設計『GK110』時,重在提升其運算效能。『GK110』與『GK104』最大的改變在於,『GK104』的SMX陣列中,每個SMX陣列擁有8個CUDA核心(流處理器)專門用於FP64(雙精度浮點數)運算操作,而『GK110』中每個SMX陣列擁有64個CUDA核心用於FP64運算操作,這使得『GK110』中每個SMX陣列的雙進度浮點數運算作業吞吐量可達8倍於一個『GK104』的SMX陣列。『GK110』的SMX陣列的全域暫存器檔案空間也有增加,達256KB。紋理快取也有改進,48KB的空間,可在通用運算中充當唯讀快取。[3]

隨機搬移指令

在低階程式語言層面上,『GK110』增加了額外的指令和操作,來求得更好的效能。新增的隨機搬移指令,允許執行緒可存取共享資料而無需到記憶體中存取,使處理進程比以往的載入/共享/存放模型來得更快。原子操作也被徹底分解,這樣做除了加速原子操作執行速度之餘,還加入一些FP64的操作使其獲得對FP64資料的處理能力,而此前僅支援FP32單精度浮點數的資料。[3]

Hyper-Q

在執行通用運算時,Hyper-Q將『GK110』的硬體工作隊列從1個擴展到32個。在『Fermi』架構時代,一個工作隊列無論它是否會動用顯示核心內每個SM陣列,都會在隊列任務處理完畢前佔用這些陣列,這樣做就會有部分SM陣列處於閒置,而造成效率低下。『GK110』上,由於擁有32個工作隊列,在不同的情況下,能夠將不同的任務流輸入至原本閒置的SMX陣列中,增進單元復用率來達成運算資源利用最佳化。Hyper-Q不僅在顯示核心內負責任務隊列分派作用,還能與MPI通訊以及建立對映(在高效能運算領域裏頻繁使用的一個通訊介面),來加強Hyper-Q的在高效能運算方面的功用。此前基於MPI的解題運算步驟,多為多CPU系統而設計,利用顯示核心作運算加速的話,由於一般顯示核心僅能對圖形任務進行排程,對顯示核心內的運算單元等進行通用運算任務分配仍需要依賴CPU處理,這樣又加重了CPU的負擔,而且顯示核心也沒有被充分利用,這樣就成為效能提升的一大瓶頸,而Hyper-Q則可以解決這個瓶頸,GPU可自動根據負荷需要對SMX陣列執行通用運算任務分配。提升MPI任務數量,可在這些求解運算步驟中充分利用Hyper-Q,提升效率進而提升效能,而且,運算程式還無需做修改或只需小許修改。[3]

Remove ads

Dynamic Parallelism

Dynamic Parallelism是使顯示核心根據需要對Grid的運算結果進行判別並在顯示核心內建立新的Kernel。『Fermi』時代,當前一個Kernel執行完畢後只有CPU可以回收判別運算結果然後才為顯示核心分配新的Kernel,這使得需要花費不少的資源來維持顯示核心與CPU之間的通訊。在核心加入判別運算結果以及分派Kernel能力,使其它的Kernel也能按照接到CPU發出的運算請求的Kernel去派遣分配,那樣顯示核心就可以節省大量與CPU通訊的資源以及時間,降低延時、提升顯示核心內部的Kernel密度、任務執行連貫度以及低負載高密集度任務中的運算單元復用率,同時也能解放CPU,使CPU能有更多時間處理其它任務。[3]

Gird管理單元

Dynamic Parallelism,由Grid Management Unit(GMU,Gird管理單元)用作管理Grid以及對將要運行的Gird進行優先級排程,可以暫停新網格和隊列的分派,並且在網格準備執行時方會解除網格的暫停等待狀態,為准許像是動態並行能力等高負載的功能的運行提供更好的靈活性。在Kepler上的二級仲裁機制CUDA Work Distributor(CUDA工作分發器,CWD)持有準備可被分派多達32個活動的Grid,雙倍於『Fermi』的CWD,GMU對其收到的Grid進行執行/停止、回收、判斷、暫停等待以及重新排序等作業。『Kepler』上的CWD經由一種雙向鏈路與GMU通訊,以使得GMU可以暫停新Grid的分派並在需要時令Grid繼續執行。GMU也與Kepler的SMX陣列直接連接,以允許開啟額外工作的Grid以動態並行的方式傳送新工作回GMU,令其對新工作進行優先級排程並分派。如果分派了額外工作負載的核心暫停了,GMU將使其進入不活動狀態,直到從屬的工作已經完成方會調回。[5]

Remove ads

NVIDIA GPUDirect

NVIDIA GPUDirect™特性,允許在一台電腦上或數台伺服器中的多顆GPU連接為一個網路,而且它們之間可直接交換資料而無需經過CPU或系統記憶體。GPUDirect的RDMA特性允許第三方裝置,像是固態硬碟、網路卡以及IB適配器等在多GPU網路上的同一系統中直接存取顯示記憶體,最重要的是,可以降低MPI傳送到或接收自其它GPU的顯示記憶體的資訊。它也降低了系統記憶體的頻寬需求,減低GPU的DMA引擎的壓力並使其可用於其它CUDA任務上。Kepler『GK110』也支援其它GPUDirect特性,包括對等(P2P)以及視訊專用GPUDirect。

DirectX 12

GeForce 700全系列顯示核心的顯示卡上皆可以支援部分DirectX 12功能。輝達在基於DirectX 11的GPU上透過驅動程式支援DirectX 12的API。[4]

產品介紹

桌面平台

Thumb
技嘉推出的GeForce GTX 770顯示卡
Thumb
GeForce GTX 780顯示卡的電路板

目前基於『Kepler』顯示核心的有6款產品推出,GeForce GTX 760、770、780、780 Ti、TITAN以及TITAN Black。GTX 760和770採用GK104核心。GTX 780採用與TITAN相同的GK110核心,僅在紋理單元數量,時脈以及驅動程式特性上有不同。780Ti以及TITAN Black搭載完整版『GK110』顯示核心,兩者的驅動程式特性也有所不同。

  • GeForce GTX TITAN[6]以及GeForce GTX TITAN Black[7]- 前者於2013年2月19日推出。[8]GeForce GTX TITAN採用和NVIDIA Tesla K20X相同的,核心代號為GK110的顯示核心:擁有71億個電晶體,2688個CUDA核心,48個ROP單元,224個紋理單元,384位元的記憶體位寬和6GB容量的GDDR5顯示記憶體,雙精度浮點運算速率和單精度浮點運算速率的比率維持在設計的1/3,而非GTX690/680/670等限制在1/24的比率。然而在GeForce GTX TITAN的驅動程式中,預設雙精度浮點運算速率和單精度浮點運算速率的比率仍為1/24(但可以手動在NVIDIA控制面板中開啟全速雙精度浮點運算),核心時脈和著色器時脈均為837MHz(開啟全速雙精度浮點運算後降為732MHz),等效顯示記憶體時脈為6008MHz,記憶體頻寬288.4GB/s。除此以外還支援新的電源管理GPU Boost 2.0,提供相對更自由的電壓調整和更細緻的時脈和電壓調整。外接輔助供電採用6Pin+8Pin的形式。NVIDIA的宣傳口號:『DNA Of the World's Fastest Supercomputer』。在多個效能測試中遠超GeForce GTX 680以及對手AMD的Radeon HD 7970 GHz Edition。[9][10][11]但是,NVIDIA卻嚴格限制合作廠商生產非公版的GeForce GTX Titan。[12]後續的升級版『GTX TITAN Black』已於2014年2月18日推出,規格更新至和Quadro K6000以及Tesla K40X一致的完整版『GK110』顯示核心,擁有2880個流處理器,240個紋理單元,預設時脈也提升到889MHz(全部核心加速時為980MHz),而其餘規格與GTX TITAN一致,其顯示卡外觀上僅散熱器金屬罩的標識相異。[13][14]
  • GeForce GTX 780[15]以及GeForce GTX 780 Ti[16] - 前者於2013年5月23日發布,相比GTX TITAN,流處理器數量進一步削減至2304個(1組SMX單元),紋理單元也削減至192個,但其它基本規格和GTX TITAN一致;公版顯示卡的顯示記憶體容量也削減到3GB,核心預設時脈則小幅上升至863MHz(全部核心加速時可達900MHz),也閹割了雙精度浮點數運算的效能(1/24比率),相對GTX TITAN,NVIDIA允許合作廠商推出非公版顯示卡。[17]在GTX TITAN發布後續升級版GTX TITAN Black前,消費級的完整版『GK110』顯示核心出現在2013年11月7日推出的GTX 780 Ti上,規格和後續的GTX TITAN Black的基本一致,但公版顯示卡的顯示記憶體容量也只有3GB,而且和GTX 780一樣閹割雙精度浮點運算效能,核心時脈上升至876MHz(加速可達928MHz),效能表現稍勝於對手AMD的Radeon R9 290X[18]但是由於GTX 780 Ti的規格和GTX 780的規格相差非常小(僅供電不一致),因此有合作廠商曾將用於GTX 780的電路板用於GTX 780 Ti上,但由於供電規格的差異而導致這批使用GTX 780電路板的GTX 780 Ti會有顯示卡燒毀的危險。而對於問題顯示卡,廠商也願意對購買了這批顯示卡的使用者免費更換新批次的顯示卡。[19][20][21]
  • GeForce GTX TITAN Z[22] - 2014年3月25日由黃仁勳於NVIDIA GTC 2014(GPU年度技術大會)上公佈,GTX TITAN Black的雙芯版本,單張電路板上搭載兩顆完整規格的『GK110』顯示核心,5760個流處理器,480紋理單元,56個ROP單元,12GB容量的GDDR5顯示記憶體,2×384位元的記憶體位寬,但具體的時脈仍沒有公佈,輝達的官方建議售價高達2999美元。[23]但正式販售日期已數度延期,最終於2014年5月28日正式販售,維持和發佈時硬體規格以及價格。儘管公版顯示卡的效能上略為不及對手AMD Readeon R9 295X2公版,但最大僅375W的熱設計功耗以及發熱控制(僅使用風冷)要比對手的500W優勝,但在散熱器的噪音控制方面不及對手。[24][25]
Remove ads

行動平台

Thumb
使用MXM介面的筆記型電腦用GTX 780M

輝達首先推出的使用於行動電腦的GeForce 710M[26]和GeForce GT 730M[27]均為上一代產品的更名版本。後續陸續發布了低階入門、中階以及高端的行動GPU,見下面的晶片規格表。

晶片規格

桌上型顯示核心

GeForce 700系列的桌上型顯示核心,首發實際上是GeForce GTX TITAN,稍後是GeForce GTX 780,規格進一步刪減、價格更低的產品都在GeForce GTX 780發布以後陸續發布並上市。和GeForce 600系列一樣,幾乎所有的『Kepler』架構的顯示核心儘管支援DirectX 11.1的應用程式介面,但硬體支援度上僅支援到Direct3D 11.1的硬體特性層面11_0,Direct3D硬體特性層面11_1並沒有完整支援,11_1相比11_0多出的4個特性在『Kepler』的硬體上沒有予以支援。[28][29]即使後續可以支援Direct3D 12,也只能支援到Feture Level 11_0的功能級別。

  • 1 統一渲染器/流處理器數量 : 紋理對映單元數量 : 渲染輸出單元(ROP)數量
  • 2 畫素填充率的計算:ROP的數量乘以基準核心時脈速率(時脈單位Hz),單位畫素數每秒(P/s)。
  • 3 紋理填充率的計算:TMU的數量乘以基準核心時脈速率(時脈單位Hz),單位紋理數每秒(T/s)。
  • 4 單精度浮點數運算效能的計算:兩倍渲染器的數量然後乘以基準核心時脈速率(時脈單位Hz),單位FLOPS
  • 5 雙精度浮點數運算效能的計算:GeForce GTX TITAN的為單精度浮點數運算效能的最高的1/3或1/24,具體取決於使用者於驅動程式附帶的NVIDIA控制台上的設定(預設為1/24)[30],但是其它型號的顯示核心,雙精度效能都被固定為單精度的1/24;[31]基於Maxwell架構的顯示核心,更被壓低至1/32。[32]
  • 6 GDDR5視訊記憶體的資料傳輸時脈速率是其運作時脈的四倍,DDR3記憶體的則為兩倍。
  • 7 列表數據絕大部分來源於輝達的公版顯示卡的資料,實際數據會因不同廠商推出的非公版型號而有所出入;另外GF108、GF117以及GF119的時脈數據標示為:CUDA核心時脈/渲染器時脈
  • 8 GeForce GTX 750[33]以及GeForce GTX 750 Ti採用的是『Maxwell』架構的顯示核心[34][35][36],詳見NVIDIA GeForce 800系列
  • 9 GeForce GT 740 只有非公版顯示卡,實際顯示核心、視訊記憶體之時脈會與NVIDIA發布的資料有所差異。[37]
更多資訊 型號, 推出年分 ...

行動平台顯示核心

某些筆記型電腦或低功耗裝置製造商會使用特定規格,特別是低階入門型號的顯示核心。因此該列表中低階型號的顯示核心的數據僅供參考,實際數據取決於裝置製造商。

更多資訊 型號, 推出年分 ...

參見

腳註

註解

  1. 驅動程式頁面存檔備份,存於網際網路檔案館),在GeForce GTX 780發布前,在驅動程式手動搜尋中,GeForce GTX TITAN歸為NVIDIA GeForce 600圖形處理器系列當中,而非NVIDIA GeForce 700系列。而GeForce GTX 780發布後,GeForce GTX TITAN被歸到GeForce 700系列當中。後來發表的GTX TITAN Black Edition以及GTX TITAN Z也被劃分至GeForce 700系列中。

外部連結

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads