热门问题
时间线
聊天
视角

至強融核

一款英特爾的協處理器 来自维基百科,自由的百科全书

Remove ads

至強融核(Xeon Phi)協處理器,是首款英特爾集成眾核(Many Integrated Core,MIC)架構產品。[1]用作高性能計算(HPC)的超級計算機服務器的加速卡。最多72個處理器核心,每個核心擁有4個超線程,最多288個線程,超線程無法關閉。與之競爭的是GPGPU(通用圖形處理器)在HPC領域應用的普及。英特爾至強融核協處理器提供了類似於英特爾至強處理器編程環境的通用編程環境。多個英特爾至強融核協處理器可安裝在單個主機系統中,這些協處理器可通過 PCIe 對等互連相互通信,不受主機的任何干擾。

事实速览 設計公司, 指令集架構設計策略 ...
Remove ads

歷史

前身

前身為2006年[2]英特爾宣布的研發產品Larrabee的眾核架構(many core architecture),這是基於P5微架構內核,每核4路超線程,512位SIMD,內部環形數據總線,擴展的高速緩存一致性的眾核系統。Larrabee用於GPU產品的開發於2010年5月終止。[3]

2009年開始的英特爾的Single-chip Cloud Computer英語Single-chip Cloud Computer多核微處理器原型,[4]這是用於雲計算數據中心在單芯片上部署多核(原型為48核),硬件支持對每核的頻率與電壓控制以最大化能耗效用,還有mesh網絡用於片間通信。該設計缺乏高速緩存一致性內核,主要用於使設計適用於很多核的情形。[5]

2007年披露的Teraflops Research Chip英語Teraflops Research Chip研究項目[6]是片上80核,每核2套浮點單元,非x86實現而是96位超長指令字架構。[7]該項目研究了核間通信方法、片上能耗管理,獲得了1.01 TFLOPS在3.16 GHz功率62 W。[8][9]

Remove ads

至強融核的原型Knights Ferry

英特爾 集成眾核(Many Integrated Core,MIC)原型板,命名為Knights Ferry於2010年5月31日發布。該產品源於Larrabee項目與英特爾其他研究包括 Single-chip Cloud Computer[10][11]

該產品在一塊PCIe板上布設了有序的32顆1.2 GHz處理器核心,每核4線程,2 GB GDDR5板上內存,[12],8 MB coherent L2高速緩存(每核256 KB以及32 KB L1代碼高速緩存,32 KB L1數據高速緩存),功耗~300 W,[12],使用45 nm製程。[13]板上的Aubrey Isle內核控制 1,024位寬的環形總線(雙向512位)連接各核與主內存。[14]單板性能超過750 GFLOPS。[13]原型板僅支持單精度浮點數指令。[15]

最初用戶包括歐洲核子研究組織韓國科學技術情報研究院英語Korea Institute of Science and Technology Information萊布尼茲超級計算中心英語Leibniz Supercomputing Centre。硬件廠商包括IBM, SGI, HP, Dell等。[16]

第一代產品

第一批至強融核的研發代號為Knights Corner,2011年公布,使用22納米製程3維三柵極結構晶體管[10][13]繼承了Larrabee的每核4路SMT線程,512位SIMD單元,32KB L1 指令cache,32KB L1數據cache,一致的L2cache(每核512 KB),每個核心專用的二級高速緩存由全局分布的 (global-distributed) 標籤目錄(TD)保持完全一致;16套內存控制器均勻分布在環上,連接片上的GDDR5內存;PCIe客戶端邏輯通過PCIe IO部件連接主機內存;所有這些組件都由帶寬極高的雙向環形總線互連在一起,其中數據環是單向512位帶寬,還有雙向的地址環(發送讀/寫命令和內存地址)與確認環(發送流控制和一致性消息),由於模擬實驗證實地址環與確認環會在32個核心並行時飽和,最終設計是在每個方向使用2個地址環和2個確認環。英特爾眾核架構的計算核心是基於修改版的P54C設計,最初用於Pentium(即80586),指令流水順序執行,提供4路超線程,該x86架構的電路實現只占內核面積的2%。[17]這利用了x86的技術創造了x86兼容的多核架構可利用已有的並行軟件工具。[13]至強融核協處理器核心的一個重要組件是矢量處理單元 (VPU),包括一種新型的512位SIMD指令集,其正式名稱為英特爾® 初始眾核指令集(英特爾® IMCI)。VPU每周期可執行16路單精度或8路雙精度浮點運算。VPU還支持融合乘-加 (FMA) 指令,還可提供整數支持。VPU 還包括擴展數學單元 (EMU),它可執行超越運算,如倒數、平方根和對數,從而支持高帶寬矢量式執行這些運算。EMU 通過計算這些函數的多項式近似值進行運算。

L2高速緩存的一致性問題:當某個核心訪問它的L2高速緩存發現缺失時,地址請求會通過地址環形總線發送至各核心的標籤目錄(distributed Tag Directory)。每個核心及標籤目錄通過一個總線控制器(ring stop)與環形總線項連。如果請求的數據塊位於另一個核心的L2高速緩存中,那麼轉發請求會通過地址環形總線發送至該核心的L2高速緩存,隨後在數據環形總線上傳輸該數據塊給發出請求的核心的L2高速緩存。如果請求的數據並未存在於任何核心的L2高速緩存中,那麼最初的核心將請求的內存地址發送給協處理器的各個內存控制器。

電源管理:一個核心的4條超線程全部停止,該核心立即進入C1節電狀態;在任何時間,都可關閉或開啟任意數量核心的電源。當所有核心未檢測到活動,標籤目錄、互連、二級高速緩存和內存控制器都轉入節電狀態C6。主機驅動程序可讓該協處理器處於更深度的睡眠狀態或空閒狀態,其中所有非核心的電源開啟,GDDR 處於自我刷新模式,PCIe 邏輯處於喚醒的等待狀態,GDDR-IO部件的功耗極低。

程序設計工具包括OpenMPOpenCL[18]Cilk/Cilk Plus與英特爾的專門版的Fortran, C++編譯器[19]與數學庫。[20]Knights Corner指令集的文檔可從英特爾網站獲得。[21][22][23]

不計客戶定製化產品,至強融核第一代共有3100/5100/7100等型號,分別有57/60/61個核心及6GB/8GB/16GB的片上GDDR5記億體,1 TFlops/1.01 TFlops/1.2TFlops雙精度浮點計算,240/320/352 GB/sec的內存帶寬,300W/225W/300W的TDP功耗。[24][25][26]每款型號按散熱器的不同,包括主動式、被動式和沒有散熱器,主動式(A)指有風扇,被動式(P)則只有一塊很大的散熱片,沒有散熱器(X)需要配合水冷使用。

研究者的評測表明,至強融核發揮其計算效力需要簡單的數據結構與高度並行;如果編譯器驅動的並行或向量化失敗,則難以在至強融核上編程。[27]

2011年6月,SGI宣布利用英特爾的眾核架構開發高性能計算產品。[28]

2011年9月,得克薩斯先進計算中心 (TACC)英語Texas Advanced Computing Center宣布用Knights Corner加速卡建成了10 petaFLOPS "Stampede"超級計算機,提供8 petaFLOPS計算能力。[29]該超級計算機還將使用下一代的Knights Landing眾核加速卡把峰值計算速度提升為至少15 PetaFLOPS"。[30][31]

2012年6月18日在漢堡召開的國際超級計算大會英語International Supercomputing Conference上,英特爾宣布把眾核架構的系列處理器家族的商品名為英特爾志強融核[32][32][33][34][35][36][37][38]

The Xeon Phi uses the 22 nm process size.[24][25][26]The Xeon Phi 3100 will be priced at under US$2,000 while the Xeon Phi 5110P will have a price of US$2,649 and Xeon Phi 7120 at US$4129.[24][25][26] On June 17, 2013, the Tianhe-2 supercomputer was announced[39]by TOP500 as the world's fastest. It uses Intel Ivy Bridge Xeon and Xeon Phi processors to achieve 33.86 petaFLOPS.

2012年11月12日,英特爾正式宣布至強融核產品在2013年上半年開始上市銷售,5100P售價2149$,3100售價2000$。具有類似CPU的編程能力,可使用與其他英特爾至強E5處理器的編程語言、開發工具、技術與並行模型。[24][25][26][40]在綠色500強列表中使用該產品的一個系統成為最有功率效能的計算機。[41][42][43]

2012年6月5日,英特爾發布了關於Knights Corner的開源軟件與文檔。[44]

2012年6月,Cray公司宣布在Cascade系統上使用22 nm製程的Knight's Corner加速卡。[45][46]

2012年6月,ScaleMP英語ScaleMP發布了使用Knight's Corner的虛擬化軟件,允許Knight's Corner執行老的MMX/SSE指令並訪問無線的主機內存。[47]

2013年6月,國家超級計算廣州中心發布天河二號成為世界最快的超級計算機。[39]使用了英特爾的Ivy Bridge 微架構的至強E5 2692v2型號的12核處理器與至強融核31S1P的57核協處理器,獲得了33.86 petaFLOPS。[48]

Remove ads

產品列表

更多信息 Xeon Phi X100 系列, 訂購代碼 ...
Remove ads

第二代產品

第二代至強融核的研發代號Knights Landing,[30]使用14 nm製程英語14 nanometer,2013年6月17日公布。[48]有兩種形式:協處理器與主處理器。Knights Landing最多有72顆Airmont英語Airmont (microarchitecture)(Atom)內核,每核4線程,[63][64]最大支持384 GB of DDR4 RAM與8–16 GB of stacked 3D MCDRAM。每核有2個512位向量單元,支持AVX-512F (AVX3.1) SIMD指令與英特爾AVX-512 Conflict Detection Instructions (CDI), Intel AVX-512 Exponential and Reciprocal Instructions (ERI), Intel AVX-512 Prefetch Instructions (PFI), 以及全套的x86指令集除了Transactional Synchronization Extensions英語Transactional Synchronization Extensions指令。[65]Knights Landing的TDP為160至215 W。

Remove ads

產品列表

更多信息 Xeon Phi 7200 系列, 訂購編號 ...
Remove ads

第三代產品

第三代眾核產品的代號為Knights Hill,英特爾在超級計算14(SC14)上首次發布細節。採取14 nm製程,包含60至72顆基於Silvermont Atom改進版的核心,每核4路超線程。 intel Phi 已停產。[75]2017年上市銷售。(沒上市)(2019/1/10)

競爭產品

參見

參考文獻

Loading content...

外部連結

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads