Tensor Core

Tensor Core

Tensor Core(テンソルコア)とは、NVIDIAのGPUに搭載されている、行列演算に特化した専用演算ユニットです。2017年のVoltaアーキテクチャで初めて導入され、ディープラーニングの学習と推論において大幅な高速化を実現します。

Tensor Coreの動作原理

Tensor Coreは、4x4の行列積和演算(D = A x B + C)を1クロックサイクルで実行します。通常のCUDAコアでは多くのサイクルを要する行列演算を、専用ハードウェアにより劇的に高速化します。この演算はニューラルネットワークの全結合層や畳み込み層の計算の核心部分に直結しています。

対応する精度フォーマット

第1世代のTensor CoreはFP16の行列演算をサポートしていましたが、世代を重ねるごとに対応精度が拡大しています。現在はBFloat16、TF32、FP8、INT8、INT4など多様な精度フォーマットに対応し、学習と推論それぞれに最適な精度を選択できます。

性能への貢献

Tensor Coreの活用により、ディープラーニングの学習は混合精度演算で2〜3倍以上の高速化が可能です。H100のTensor Core(第4世代)はTransformerモデルに最適化された演算機能も備え、大規模言語モデルの学習効率を大幅に向上させています。Tensor Coreの有効活用が、GPU性能を最大限に引き出す鍵となります。