Tensor Core
GV100の第1世代Tensor Coreでは,Tensor Core 1基あたり16bit半精度浮動小数点(FP16)数の積和算(FMA:Fused Multiply-Add)を1クロックに64並列で演算できた 第3世代Tensor Coreでは,混合精度の積和算を1クロックで256も行えるようになった
A100のTensor Coreには少しからくりがある。演算器の内部演算精度はFP32ではなく,TF32に最適化されているのだ。 そのため,FP32精度のデータを入出力はできるものの,積算時にはFP32をTF32に丸め込んで演算を行う。一方,加算の場合はFP32精度のまま行える。
つまり,Ampere世代のTensor Coreの演算器は,19bit TF32演算器となっていて,仮数部の演算精度を犠牲にしてFP32の演算をこなせるようにしたわけだ。