热门问题
时间线
聊天
视角
人工智能加速器
来自维基百科,自由的百科全书
Remove ads
人工智能加速器(英語:AI accelerator),又稱NPU(neural processing unit,神經處理器),是一類專用於人工智能(特別是人工神經網絡、機器視覺、機器學習等)硬件加速的微處理器[1]或計算系統。[2]典型的應用包括機器人學、物聯網等數據密集型應用或傳感器驅動的任務。[3]
人工智能加速器被用於移動設備,例如蘋果iPhone和華為手機,[4]以及個人電腦,例如英特爾筆記本電腦,[5] AMD筆記本電腦[6]和蘋果芯片 Mac。[7]加速器用於雲計算服務器,包括谷歌雲平台中的張量處理單元 (TPU)[8]和亞馬遜雲計算服務中的Trainium和Inferentia芯片。[9]此類別中存在許多廠商特有的術語,並且它是一種新興技術,沒有主導設計。
歷史
計算機系統經常用特殊用途的加速器(稱為協處理器)來補充CPU以執行專門的任務。值得注意的專用 硬件單元包括用於圖形的顯卡、聲卡、圖形處理單元和數字信號處理器。隨着深度學習和人工智能工作負載在2010年代日益突出,專門的硬件單元從現有產品中開發或改編而來,以加速這些任務。
早期的嘗試,例如英特爾的ETANN 80170NX,採用了模擬電路來計算神經函數。[11]
後來的全數字芯片,如Nestor/Intel Ni1000,緊隨其後。早在1993年,數字信號處理器就被用作神經網絡加速器,以加速光學字符識別軟件。[12]
到1988年,張偉等人已經討論了用於字母識別的卷積神經網絡的快速光學實現。[13][14]
在20世紀90年代,也有人嘗試為工作站創建並行高吞吐量系統,以用於包括神經網絡模擬在內的各種應用。[15][16]
基於FPGA的加速器也在20世紀90年代首次被探索用於推理和訓練。[17][18]
2014年,陳天石等人提出了DianNao(即來自漢字的「電腦」),[19] 特別是用於加速深度神經網絡。DianNao在一個3.02 mm2 的面積和485 mW 的功耗下,提供452 Gop/s 的峰值性能(深度神經網絡中的關鍵操作)。後來,它的繼任者(DaDianNao,[20] ShiDianNao,[21] PuDianNao[22]) 由同一組人提出,形成了DianNao家族。[23]
Remove ads
異構計算在一個系統或單個芯片中結合了許多專用處理器,每個處理器都針對特定類型的任務進行了優化。諸如Cell微處理器[26]等架構具有與AI加速器顯著重疊的特性,包括:支持打包低精度算術、數據流架構以及優先考慮吞吐量而不是延遲。Cell微處理器已應用於許多任務[27][28][29],包括AI。[30][31][32]
在21世紀初,CPU也獲得了越來越廣泛的SIMD單元,這得益於視頻和遊戲工作負載;以及對打包低精度數據類型的支持。[33]由於CPU性能的提高,它們也被用於運行AI工作負載。CPU對於具有小型或中型並行性的DNN、稀疏DNN和低批量大小的場景具有優勢。
圖形處理單元或GPU是專門用於操縱圖像和計算局部圖像屬性的硬件。神經網絡和圖像處理的數學基礎是相似的,過易並行的任務涉及矩陣,導致GPU越來越多地用於機器學習任務。[34][35]
2012年,Alex Krizhevsky採用兩個GPU來訓練深度學習網絡,即AlexNet,[36] 它贏得了ISLVRC-2012競賽的冠軍。在2010年代,英偉達等GPU製造商在硬件(例如,INT8運算符)和軟件(例如,cuDNN庫)方面都增加了與深度學習相關的功能。
在2010年代,GPU繼續朝着促進深度學習的方向發展,包括在自動駕駛汽車等設備中進行訓練和推理。[37][38]英偉達等GPU開發商的NVLink正在開發額外的連接能力,以滿足AI受益的數據流工作負載。隨着GPU越來越多地應用於AI加速,GPU製造商已經整合了神經網絡-專用硬件,以進一步加速這些任務。[39][40] 張量核心旨在加快神經網絡的訓練。[40]
GPU繼續用於大規模AI應用。例如,Summit,來自IBM的橡樹嶺國家實驗室的超級計算機,[41] 包含27,648個NVIDIA Tesla V100卡,可用於加速深度學習算法。
Remove ads
深度學習框架仍在不斷發展,這使得設計定製硬件變得困難。可重構設備(例如現場可編程門陣列 (FPGA))使硬件、框架和軟件更容易相互協同發展。[42][17][18][43]
微軟已使用FPGA芯片來加速實時深度學習服務的推理。[44]
神經處理單元 (NPU) 是另一種更原生化的方法。自2017年以來,一些CPU和SoC具有片上NPU:例如,英特爾Meteor Lake、Apple A11 Bionic。
雖然GPU和FPGA在AI相關任務上的性能遠優於CPU,但通過專用集成電路 (ASIC) 進行更具體的設計,可以提高效率高達10倍。[45][46][47]這些加速器採用諸如優化的內存使用[來源請求]和使用較低精度運算來加速計算並提高計算吞吐量的策略。[48][49]一些用於AI加速的低精度浮點數是半精度和bfloat16浮點數。[50][51] Cerebras Systems已經構建了一個基於業界最大處理器(第二代晶圓級引擎(WSE-2))的專用AI加速器,以支持深度學習工作負載。[52][53]亞馬遜雲計算服務 NeuronCores是異構計算單元,它驅動Tranium、Tranium2、Inferentia和Inferentia2芯片,這些芯片由4個主要引擎組成:張量、向量、標量和GPSIMD,以及片上軟件管理的SRAM內存,用於管理數據局部性和數據預取。[54]
Remove ads
正在進行的研究
![]() | 此章節需要擴充。 (2018年10月) |
2017年6月,IBM的研究人員宣布了一種與馮諾伊曼結構相反的架構,該架構基於存內計算和相變化存儲器陣列應用於時間相關性檢測,旨在將該方法推廣到異構計算和大規模並行系統。[55] 2018年10月,IBM的研究人員宣布了一種基於內存處理和模擬人腦突觸網絡的架構,以加速深度神經網絡。[56]該系統基於相變存儲器陣列。[57]
2019年,米蘭理工大學的研究人員找到了一種方法,可以通過單一操作在幾十納秒內求解線性方程組。他們的算法基於使用模擬電阻存儲器的存內計算,通過使用歐姆定律和基爾霍夫定律一步執行矩陣乘法,從而實現高時間和能量效率。研究人員表明,具有交叉點電阻存儲器的反饋電路可以一步解決代數問題,例如線性方程組、矩陣特徵向量和微分方程。與數字算法相比,這種方法極大地提高了計算時間。[58]
2020年,Marega等人發表了關於用於開發基於浮柵場效應晶體管 (FGFET) 的邏輯內存設備和電路的大面積有源通道材料的實驗。[59]這種原子級薄半導體被認為有望用於節能機器學習應用,其中相同的基本器件結構用於邏輯運算和數據存儲。作者使用二維材料(例如半導體二硫化鉬)來精確調整FGFET作為構建塊,其中可以使用存儲元件執行邏輯運算。[59]
1988年,張偉等人討論了用於字母識別的卷積神經網絡的快速光學實現。[13][14] 2021年,J. Feldmann等人提出了一種用於並行卷積處理的集成光子 硬件加速器。[60]作者指出了集成光子學相對於其電子對應物的兩個主要優勢:(1)通過波長分多路復用結合頻率梳進行大規模並行數據傳輸,以及(2)極高的數據調製速度。[60]他們的系統每秒可以執行數萬億次乘積累加運算,這表明集成 光子學在數據密集型AI應用中的潛力。[60]還可以進行人工神經網絡反向傳播的光學處理器已經過實驗開發。[61]
命名法
截至2016年,該領域仍在不斷變化,供應商正在推廣他們自己對「AI加速器」的營銷術語,希望他們的設計和API能夠成為主導設計。對於這些設備之間的界限以及它們將採用的確切形式,還沒有達成共識;然而,幾個例子清楚地表明了旨在填補這一新空間的目標,並且功能上存在相當大的重疊。
過去,當消費者圖形處理器出現時,業界最終採用了英偉達的自稱術語「GPU」,[62]作為「圖形加速器」的集體名詞,在最終確定一個由Direct3D提出的模型實現的整體管道[需要解釋]之前,它已經採用了多種形式。
所有型號的英特爾Meteor Lake處理器都內置了「多功能處理器單元」(「VPU」),用於加速推斷,以用於計算機視覺和深度學習。[63]
深度學習處理器 (DLP)
受DianNao家族開創性工作的啟發,學術界和業界提出了許多DLP,其設計經過優化,可以利用深度神經網絡的特性來提高效率。在ISCA 2016上,接受論文的三個單元(15%)側重於深度學習的架構設計。這些努力包括學術界的Eyeriss(麻省理工學院),[64] EIE(斯坦福大學),[65] Minerva(哈佛大學),[66] Stripes(多倫多大學)[67],以及工業界的TPU(谷歌)[68]和MLU(寒武紀科技)。[69]表1列出了幾項代表性工作。
DLP架構的主要組件通常包括計算組件、片上內存層次結構以及管理數據通信和計算流的控制邏輯。
關於計算組件,由於深度學習中的大多數操作可以聚合到向量操作中,因此在數字DLP中構建計算組件的最常用方法是基於MAC(乘法-累加)的組織方式,可以使用向量MAC[19][20][22]或標量MAC。[68][21][64]與通用處理設備中的SIMD或SIMT不同,深度學習領域特定的並行性在這些基於MAC的組織中得到了更好的探索。關於內存層次結構,由於深度學習算法需要高帶寬才能為計算組件提供足夠的數據,因此DLP通常在片上緩衝區中使用相對較大的大小(幾十KB或幾MB),但採用專用的片上數據重用策略和數據交換策略來減輕內存帶寬的負擔。例如,DianNao,16個16輸入的向量MAC,需要16 × 16 × 2 = 512個16位數據,即計算組件和緩衝區之間幾乎需要1024 GB/s的帶寬。通過片上重用,這種帶寬要求大大降低。[19]與通用處理設備中廣泛使用的緩存不同,DLP總是使用高速緩存內存,因為它可以通過利用深度學習算法中相對規則的數據訪問模式來提供更高的數據重用機會。關於控制邏輯,由於深度學習算法正在以驚人的速度不斷發展,因此DLP開始利用專用ISA(指令集架構)來靈活地支持深度學習領域。首先,DianNao使用了一種VLIW樣式的指令集,其中每條指令都可以在DNN中完成一層。寒武紀[74]引入了第一個深度學習領域專用ISA,它可以支持十多種不同的深度學習算法。TPU還從CISC樣式的ISA中揭示了五個關鍵指令。
由於混合DLP的效率高,因此它們出現在DNN推理和訓練加速中。內存計算(PIM)架構是最重要的混合DLP類型之一。PIM的關鍵設計理念是彌合計算和內存之間的差距,方法如下:1) 將計算組件移動到內存單元、控制器或內存芯片中,以緩解內存牆問題。[71][75][76]這種架構顯著縮短了數據路徑並利用了更高的內部帶寬,因此帶來了引人注目的性能提升。2) 通過採用計算設備來構建高效的DNN引擎。2013年,惠普實驗室展示了採用ReRAM交叉點結構進行計算的驚人能力。[77]受這項工作的啟發,人們提出了大量工作來探索基於ReRAM[70][78][79][71]、相變存儲器[75][80][81]等的新的架構和系統設計。
基準測試
可以使用MLPerf等基準測試來評估AI加速器的性能。[82]表2列出了AI加速器的幾個典型基準測試。
潛在應用
另請參閱
- 認知電腦
- 神經形態工程
- 光學神經網絡
- 物理神經網絡
- UALink
參考文獻
外部連結
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads