半精度演算の速度
FP32
ピーク性能 38.7 TFlops
M=640, N=480, K=320 のFP32の計算 10TFlops出ていますが、行列サイズも小さいのでピーク性能にはまだまだです。
FP16
cudaTensorCoreGemm (FP16 Tensor)
A6000:TFLOPS: 77.85
M=4096, N=4096, K=4096の行列積演算で、いわゆる混合演算(Mixed precision)です。行列A, Bはhalf (FP16)で、積和を行列Cのfloat(FP32)で受け取り、推論だけではなく学習にも十分有効であるとして利用されています。
半精度を使った方が2〜7倍くらい早い可能性がある
歴史
2016のGeForce GTX 1080 Tiではとても遅かった
FP32: 11.340 TFLOPSに対して FP16: 0.177 TFLOPS
2017
このKirin 970が1.92TFLOPS of FP16 – 3x Faster Than Previous-Genなわけか 2019
ファーウェイ制裁
米政府は19年、ファーウェイが国家安全保障の脅威になりかねない活動に関与したとして制裁措置を発動
ファーウェイの研究開発費はこの5年間でほぼ倍増し、2021年には221億ドル(約2兆8300億円)と、米国を除けば世界のどの企業よりも多い。
2018年8月 米政府機関が、 ファーウェイなどからの製品調達を禁止する法律が米国で成立
2019年5月 米商務省がファーウェイを輸出規制の対象に追加
アメリカ側の理由は「安全保障上の懸念」ってことになっている
中国側はもちろん「安全を口実にしてる」と反発
ファーウェイは2019年8月、Ascend 910 AIコンピューティングチップを発表し、ライバルのNvidiaのTesla v100の2倍の性能を備えていると主張した。同社の発表に拠ると、半精度浮動小数点演算(FP16)では256テラフロップスを実現している。 なるほど、エッジコンピューティングのために半精度演算のニーズが高いからアメリカと中国で技術競争が発生してるのか
エッジでの画像認識、智能化戦争に書いてあった無人小型機による作戦の質に影響しそうだしね、中国としてはアメリカの企業に依存したくないだろうね 2020: NVIDIA RTX A6000リリース
2022
米政府からの制裁により、GoogleやQualcommを含む米企業と取引ができないばかりか、米企業製の半導体装置を使用するTSMCからもチップが購入できず、事業が大幅に衰退しているHuaweiが、早ければ2022年に、中国・武漢でKirinチップ生産を開始すると、台湾メディアDigiTimesが伝えています。