トップQs
タイムライン
チャット
視点

テンソル・プロセッシング・ユニット

ウィキペディアから

Remove ads

テンソル・プロセッシング・ユニット[1][2](Tensor processing unit、TPU)はGoogleが開発した機械学習に特化した特定用途向け集積回路(ASIC)。グラフィック・プロセッシング・ユニット(GPU)と比較して、ワットあたりのIOPSをより高くするために、意図的に計算精度を犠牲に(8ビットの精度[3])した設計となっており、ラスタライズ/テクスチャマッピングのためのハードウェアを欠いている[4] 。チップはGoogleのテンソルフローフレームワーク専用に設計されているがGoogleはまだ他のタイプの機械学習にCPUとGPUを使用している[5] 。他のAIアクセラレータの設計も他のベンダーからも登場しており、組み込みやロボット市場をターゲットとしている。

Googleは同社独自のTPUは囲碁の人間対機械シリーズのAlphaGo対李世ドル戦で使用されたと述べた[4]。GoogleはTPUをGoogleストリートビューのテキスト処理に使っており、5日以内にストリートビューのデータベースの全てのテキストを見つけることができる。Googleフォトでは個々のTPUは1日に1億枚以上の写真を処理できる。TPUはGoogleが検索結果を提供するために使う「RankBrain」においても使用されている[6] 。TPUは2016年のGoogle I/Oで発表されたが、GoogleはTPUは自社のデータセンター内で1年以上前から使用されていると述べた[5][4]

Googleの著名ハードウェアエンジニアのNorm Jouppiによると、TPU ASICはヒートシンクが備え付けられており、データセンターのラック内のハードドライブスロットに収まるとされている[5][7]。2017年時点でTPUはGPUTesla K80やCPUXeon E5-2699 v3よりも15~30倍高速で、30~80倍エネルギー効率が高い[8][9]

Remove ads

アーキテクチャ

第1世代

第1世代のTPUは、PCIe 3.0バスを介してホストCPUからのCISC命令で動作する8ビット行列乗算エンジンである。TPUは28 nmプロセスで製造され、正確なダイサイズは不明であるがHaswellの半分未満とされていることから最大で331 mm2である[10]。クロックスピードは700 MHzであり、熱設計電力(消費電力)は28~40Wである。TPUは28 MiBのチップメモリーと65536個の8ビット積和演算器の結果を取る4 MiB32ビットアキュムレーターを有している。命令はホストとのデータ送受信、行列の乗算または畳み込み、活性化関数の適用を実行する[11]

第2世代

第2世代のTPUは2017年5月17日に発表された[12][13]。 個々のTPU ASICは45テラFLOPSであり、4チップ(1台)で合計180テラFLOPSモジュールとなる。これらのモジュールは256チップ(64台)組み合わせると11.5 PFLOPSのパフォーマンスを発揮する[14]。とりわけ第1世代のTPUは整数に限定されている一方で第2世代のTPUは浮動小数点演算が可能である[15]ので、機械学習モデルの訓練と推論の両方に役立つ。Googleはテンソルフローアプリでの使用のために「Google Computeエンジン」で第2世代のTPUが利用できるようになると述べた[16]

第3世代

第3世代のTPUは2018年5月8日に発表された。発表内容は、1ユニットあたりの計算性能が100ペタFLOPSであり、冷却が液体冷却であることのみであった。

第4世代

2021年5月18日にGoogle I/O 2021で発表された。

第5世代

2023年に、費用対効果の高いTPU v5eと性能重視のTPU v5pが発表された。

第6世代

2024年5月にGoogle I/O 2024でTPU v6e[17]が発表された。TPU v5eの4.7倍の性能を誇る[18]。コード名は「Trillium」。

第7世代

2025年4月のGoogle Cloud NextでTPU v7が発表された。ピーク演算性能は4,614TFLOP/sである[19]。 コード名は「Ironwood」。[20]

Remove ads

関連項目

参考文献

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads