表中の性能欄は、単精度/倍精度浮動小数点の理論演算性能(ピーク時)である。
Teslaマイクロアーキテクチャ
2007年6月20日発表[2]。G80ベースのx870シリーズは単精度浮動小数点演算のみの対応であり、倍精度浮動小数点演算は実行できない[3]。
さらに見る 構成, 機種名 ...
| 構成 |
機種名 |
GPU数 |
グラフィックスクロック (MHz) |
CUDA |
メモリ |
性能 単精度 (TFLOPS) |
性能 倍精度 (TFLOPS) |
形状など |
| CUDAコア数 |
CUDAコアクロック (MHz) |
最大帯域幅 (GB/s) |
バス規格 |
バス幅 (bit) |
総容量 (GiB) |
クロック (GHz) |
| GPUコンピューティングプロセッサ1 |
C870 |
1 |
600 |
128 |
1350 |
77 |
GDDR3 |
384 |
1.5 |
1.6 |
0.519 |
N/A |
フルハイトビデオカード |
| デスクサイト・スーパーコンピュータ1 |
D870 |
2 |
600 |
256 |
1350 |
154 |
GDDR3 |
384 |
3 |
1.6 |
1.037 |
N/A |
デスクサイドシステム/ラックマウント装置 |
| GPUコンピューティングサーバ1 |
S870 |
4 |
600 |
512 |
1350 |
307 |
GDDR3 |
384 |
6 |
1.6 |
2.074 |
N/A |
1Uラック |
C1060 コンピューティングプロセッサ2 [4] |
C1060 |
1 |
602 |
240 |
1296 |
102 |
GDDR3 |
512 |
4 |
0.800 |
0.933 |
0.078 |
フルハイトビデオカード IEEE 754r 機能 |
S1070 1U GPUコンピューティングサーバ2 [5] [6] |
S1070 |
4 |
602 |
960 (240×4) |
1296/1440 |
408 (102×4) |
GDDR3 |
512 |
16 (4×4) |
? |
3.73/4.14 |
0.311/0.345 |
1Uラック IEEE 754r 機能 |
閉じる
注釈
Fermiマイクロアーキテクチャ
2009年11月6日発表[7]。ハーフレートの倍精度演算性能を実現している(倍精度の理論演算性能は単精度の場合の1/2になっている)。
さらに見る 機種名, GPU数 ...
| 機種名 |
GPU数 |
グラフィックスクロック (MHz) |
CUDA |
メモリ |
性能 単精度 (TFLOPS) |
性能 倍精度 (TFLOPS) |
形状など |
| CUDAコア数 |
CUDAコアクロック (MHz) |
最大帯域幅 (GB/s) |
バス規格 |
バス幅 (bit) |
総容量 (GiB) |
クロック (GHz) |
| C20503, 5 [8] |
1 |
575 |
448 |
1150 |
144 |
GDDR5 |
384 |
3 |
1.5 |
1.03 |
0.515 |
フルハイトビデオカード IEEE 754r 機能 画面出力機能付き |
| C20703, 5 |
1 |
575 |
448 |
1150 |
144 |
GDDR5 |
384 |
6 |
1.5 |
1.03 |
0.515 |
| C20753, 6 [9] |
1 |
575 |
448 |
1150 |
144 |
GDDR5 |
384 |
6 |
1.5 |
1.03 |
0.515 |
| M2050 |
1 |
575 |
448 |
1150 |
148 |
GDDR5 |
384 |
3 |
1.546 |
1.03 |
0.515 |
フルハイト/ パッシブ・ヒートシンク型 |
| M2070 |
1 |
575 |
448 |
1150 |
150 |
GDDR5 |
384 |
6 |
1.566 |
1.03 |
0.515 |
| M2090 |
1 |
650 |
512 |
1300 |
177 |
GDDR5 |
384 |
6 |
1.85 |
1.331 |
0.665 |
| S2050 |
4 |
575 |
1792 |
1150 |
148 |
GDDR5 |
384 |
12 |
1.55 |
4.13 |
2.06 |
1Uラック |
閉じる
注釈
- 3 NVIDIAが明らかにしていない仕様については、Quadro 6000からの推測。
- 5 GF100 (Quadro 6000/GeForce GTX 480) ベース[要出典]
- 6 GF110 (GeForce GTX 580[要出典]) ベース
Keplerマイクロアーキテクチャ
最初の製品であるTesla K10は2012年5月16日に発表された[10]。GK104ベースのK10は単精度の理論演算性能は高いものの、倍精度の理論演算性能が極端に低く(単精度の場合の1/24[11])、科学技術計算向けではなく信号処理・画像処理向けのソリューションという位置付けになっている[12]。なおGK110ベースとなるK20およびK40、そしてGK210ベースとなるK80における倍精度の理論演算性能は単精度の場合の1/3となっている[13] [14] [15]。2014年に発表されたTesla K8もGK104ベース[16]だが、K8はTeslaシリーズ初の1スロット省スペース製品となる[17]。
Fermiマイクロアーキテクチャでは SM(ストリーミング・マルチプロセッサー)と呼ばれていた概念が、KeplerマイクロアーキテクチャではSMXという名称になった。GK104/GK110の各SMXが搭載する代表的なユニットは下記である[18] [19]。
- 192 CUDAコア。16 CUDAコアを1グループとして、12グループ搭載する。
- 64K個の32ビットレジスタ。合計256KB。
- L1キャッシュ 64KB。このうち 16KB/32KB/48KB を共有メモリとして使用。共有メモリからは1サイクルで最大256B読み出せる。
- 読み取り専用キャッシュ 48KB。
- 特殊関数ユニット (SFU) 32個。三角関数、対数関数などを計算。
Fermi同様、各スレッド(コア)はワープ (warp) 単位で動作させる(1ワープは32スレッド)。ワープ内のスレッドは同期し、それぞれ同じ命令を実行する。16 CUDAコアを1グループとしているので、32スレッドに命令が行き渡るには2サイクル以上必要となる。その他、Kepler世代ではワープ内で共有メモリを介することなくデータ交換を可能にするシャッフル命令が実装されている。なおCompute capability (CC) に関しては、GK104はCC 3.0、GK110はCC 3.5、そしてGK210はCC 3.7[20]となるが、CC 3.5以上ではDynamic ParallelismやHyper-Qといった機能を備えている[21]。
フルスペックGK104では512KB、またフルスペックGK110/GK210では 1536KB (1.5MB) の L2 キャッシュを全 SMX で共有し、このキャッシュを経由して DRAM にアクセスする。なおインテルの第1世代Xeon Phiは30MB前後の L2 キャッシュを搭載しており、この点が設計の違いの一つとなる[独自研究?]。
さらに見る 機種名, GPU数 ...
| 機種名 |
GPU数 |
CUDA |
メモリ |
性能 単精度 (TFLOPS) |
性能 倍精度 (TFLOPS) |
形状など |
| CUDAコア数 |
SMX数 |
CUDAコアクロック (MHz) |
最大帯域幅 (GB/s) |
バス規格 |
バス幅 (bit) |
総容量 (GiB) |
クロック (GHz) |
| K8 7 |
1 |
1536 |
8 |
693 811 (Boost) |
160 |
GDDR5 |
256 |
8 |
2.5 |
2.13 2.49 (Boost) |
0.09 0.10 (Boost) |
フルハイト/1スロット型 |
| K10 8 |
2 |
3072 (1536x2) |
8x2 |
745 |
320 (160x2) |
GDDR5 |
256 |
8 (4x2) |
2.5 |
4.577 (2.288x2) |
0.191 (0.095x2) |
フルハイト/ パッシブ・ヒートシンク型 |
| K20 |
1 |
2496 |
13 |
706 |
208 |
GDDR5 |
320 |
5 |
2.6 |
3.52 |
1.17 |
| K20X |
1 |
2688 |
14 |
732 |
250 |
GDDR5 |
384 |
6 |
2.6 |
3.95 |
1.31 |
| K40 |
1 |
2880 |
15 |
745 875 (Boost) |
288 |
GDDR5 |
384 |
12 |
3 |
4.29 5 (Boost) |
1.43 |
| K80 |
2 |
4992 (2496x2) |
13x2 |
562 875 (Boost) |
480 (240x2) |
GDDR5 |
384 |
24 |
2.5 |
5.6 8.74 (Boost) |
1.87 |
閉じる
注釈
- 7 GK104ベース
- 8 GK104 (GeForce GTX 690) ベース
Maxwellマイクロアーキテクチャ
MaxwellではKeplerよりもさらに倍精度サポートが削られている(単精度の場合の1/32)。M4/M40は主に機械学習・ディープラーニング向けのソリューションとして提供されている[22] [23] [24] [25]。
さらに見る 機種名, GPU数 ...
| 機種名 |
GPU数 |
CUDA |
メモリ |
性能 単精度 (TFLOPS) |
性能 倍精度 (TFLOPS) |
形状など |
| CUDAコア数 |
SM数 |
CUDAコアクロック (MHz) |
最大帯域幅 (GB/s) |
バス規格 |
バス幅 (bit) |
総容量 (GiB) |
クロック (GHz) |
| M6 [26] |
1 |
1536 |
12 |
950
1051 (Boost) |
147.3 |
GDDR5 |
256 |
8 |
2.5 |
3.6 (Boost) |
0.11 (Boost) |
MXM |
| M60 [27] |
2 |
4096 (2048x2) |
32
(16x2) |
899
1178 (Boost) |
320
(160x2) |
GDDR5 |
256 |
16 (8x2) |
2.5 |
9.65
(4.825x2) |
0.3
(0.15x2) |
フルハイト |
| M4 [28] |
1 |
1024 |
8 |
517
1074 (Boost) |
88 |
GDDR5 |
128 |
4 |
2.75 |
2.2 (Boost) |
0.07 (Boost) |
ロープロファイル/ パッシブ |
| M40 [29] |
1 |
3072 |
24 |
948 1114 (Boost) |
288 |
GDDR5 |
384 |
12 |
3 |
5.8 6.8 (Boost) |
0.18 0.21 (Boost) |
フルハイト/ パッシブ・ヒートシンク型 |
閉じる
Pascalマイクロアーキテクチャ
最初の製品であるTesla P100は2016年4月に発表された[30]。16nmプロセスルールを採用。GP100ベースのP100では、Fermi世代のようなハーフレートの倍精度対応のほか、ダブルレートの半精度対応も実現されている(半精度の理論演算性能は単精度の場合の2倍になっている)。メモリに第2世代のHigh Bandwidth Memory (HBM2) を採用する。NVIDIA独自のインターコネクト規格であるNVLinkにも対応し、これまでプロセッサ間の通信ボトルネックとなっていたPCI Expressを大幅に超える伝送帯域幅を実現できる。
GP102ベースのP40およびGP104ベースのP4では、倍精度の理論演算性能は単精度の場合の1/32になっている[31]。また、SMあたりのCUDAコア数は128、共有メモリも96KBとなっており、Maxwellアーキテクチャに近い[32]。
さらに見る 機種名, GPU数 ...
| 機種名 |
GPU数 |
CUDA |
メモリ |
性能 単精度 (TFLOPS) |
性能 倍精度 (TFLOPS) |
形状など |
| CUDAコア数 |
SM数 |
CUDAコアクロック (MHz) |
最大帯域幅 (GB/s) |
バス規格 |
バス幅 (bit) |
総容量 (GiB) |
クロック (GHz) |
| P4 [33] |
1 |
2560 |
20 |
810 1063 (Boost) |
192 |
GDDR5 |
256 |
8 |
3 |
4.15 5.44 (Boost) |
0.13 0.17 (Boost) |
ロープロファイル |
| P40 [34] |
1 |
3840 |
30 |
1303 1531 (Boost) |
346 |
GDDR5 |
384 |
24 |
7.25 |
10.01 11.76 (Boost) |
0.31 0.36(Boost) |
フルハイト |
| P100 PCIe [35] |
1 |
3584 |
56 |
1189 1328 (Boost) |
540 /
720 |
HBM2 |
4096 |
12 /
16 |
0.715 |
9.5 (Boost) |
4.8 (Boost) |
フルハイト/
パッシブ |
| P100 SXM2 [36] |
1 |
3583 |
56 |
1328 1480 (Boost) |
720 |
HBM2 |
4096 |
16 |
0.715 |
10.6 (Boost) |
5.3 (Boost) |
NVLink/
パッシブ |
閉じる
Voltaマイクロアーキテクチャ[37]
最初の製品であるTesla V100は2017年5月に発表された[38]。12nmプロセスルールを採用。行列演算を実行するための専用プロセッサ「Tensor Core」を搭載する。
さらに見る 機種名, GPU数 ...
| 機種名 |
GPU数 |
CUDA |
メモリ |
性能 単精度 (TFLOPS) |
性能 倍精度 (TFLOPS) |
形状など |
| CUDAコア数 |
SM数 |
CUDAコアクロック (MHz) |
最大帯域幅 (GB/s) |
バス規格 |
バス幅 (bit) |
総容量 (GiB) |
クロック (GHz) |
| V100 PCIe |
1 |
5120 |
80 |
1245 1380 (Boost) |
900 |
HBM2 |
4096 |
16 |
0.876 |
14 (Boost) |
7 (Boost) |
フルハイト/
パッシブ |
| V100 SXM2 |
1 |
5120 |
80 |
1312
1530 (Boost) |
900 |
HBM2 |
4096 |
16 |
0.876 |
15 (Boost) |
7.5 (Boost) |
NVLink/
パッシブ |
閉じる
Turingマイクロアーキテクチャ
Tesla T4が2018年9月に発売された。
さらに見る 機種名, GPU数 ...
| 機種名 |
GPU数 |
CUDA |
メモリ |
性能 単精度 (TFLOPS) |
性能 倍精度 (TFLOPS) |
形状など |
| CUDAコア数 |
SM数 |
CUDAコアクロック (MHz) |
最大帯域幅 (GB/s) |
バス規格 |
バス幅 (bit) |
総容量 (GiB) |
クロック (GHz) |
| T4 |
1 |
2560 |
40 |
585
1590 (Boost) |
320 |
GDDR6 |
256 |
16 |
1.25 |
8.1 |
不明 |
フルハイト |
閉じる
Ampereマイクロアーキテクチャ
最初の製品であるTesla A100は2020年5月に発売された。
さらに見る 機種名, GPU数 ...
| 機種名 |
GPU数 |
CUDA |
メモリ |
性能 単精度 (TFLOPS) |
性能 倍精度 (TFLOPS) |
形状など |
| CUDAコア数 |
SM数 |
CUDAコアクロック (MHz) |
最大帯域幅 (GB/s) |
バス規格 |
バス幅 (bit) |
総容量 (GiB) |
クロック (GHz) |
| A2 |
1 |
1280 |
不明 |
1440
1770 (Boost) |
200 |
GDDR6 |
128 |
16 |
6.25 |
4.531 |
0.14 |
ハーフハイト |
| A10 |
1 |
9216 |
84 |
885
1695 (Boost) |
600 |
GDDR6 |
384 |
24 |
不明 |
31.24 |
0.976 |
フルハイト |
| A16 |
4 |
5120
(1280x4) |
20 |
885
1695 (Boost) |
800
(200x4) |
GDDR6 |
128x4 |
64
(16x4) |
6.25 |
18.432
(4.608x4) |
1.0848 |
フルハイト/
2スロット |
| A30 |
1 |
3584 |
128 |
930
1440 (Boost) |
933 |
HBM2 |
3072 |
24 |
1.215 |
10.32 |
5.161 |
フルハイト/
2スロット |
| A40 |
1 |
10752 |
84 |
1305
1740 (Boost) |
696 |
GDDR6 |
384 |
48 |
7.251 |
37.42 |
1.168 |
フルハイト/
2スロット |
| A100 PCIe |
1 |
6912 |
108 |
765
1410 (Boost) |
1555 |
HBM2 |
5120 |
40 / 80 |
不明 |
19.5 |
9.7 |
フルハイト/
2スロット |
| A100 SXM |
1555
2039 |
不明 |
SXM(英語版) |
閉じる
Hopperマイクロアーキテクチャ
最初の製品であるTesla H100は2022年3月に発売された。
さらに見る 機種名, GPU数 ...
| 機種名 |
GPU数 |
CUDA |
メモリ |
性能 単精度 (TFLOPS) |
性能 倍精度 (TFLOPS) |
形状など |
| CUDAコア数 |
SM数 |
CUDAコアクロック (MHz) |
最大帯域幅 (GB/s) |
バス規格 |
バス幅 (bit) |
総容量 (GiB) |
クロック (GHz) |
| H100 PCIe |
1 |
14592 |
114 |
1065
1650 (Boost) |
2000 |
HBM2e |
5120 |
80 |
不明 |
48 |
24 |
フルハイト/
2スロット |
| H100 SXM |
1 |
16896 |
132 |
3350 |
HBM3 |
不明 |
60 |
30 |
SXM(英語版) |
| H200 SXM |
|
|
|
|
4800 |
HBM3e |
|
141 |
不明 |
67 |
34 |
SXM |
閉じる