半精度演算の速度

A6000のベンチマーク

GPUサーバ増設とA6000のベンチマーク | ALBERT Official Blog

BFLOAT16とかも調べてる

FP32

ピーク性能 38.7 TFlops

M=640, N=480, K=320 のFP32の計算　10TFlops出ていますが、行列サイズも小さいのでピーク性能にはまだまだです。

FP16

cudaTensorCoreGemm (FP16 Tensor)

A6000：TFLOPS: 77.85

M=4096, N=4096, K=4096の行列積演算で、いわゆる混合演算（Mixed precision）です。行列A, Bはhalf (FP16)で、積和を行列Cのfloat(FP32)で受け取り、推論だけではなく学習にも十分有効であるとして利用されています。

半精度を使った方が2〜7倍くらい早い可能性がある

歴史

2016のGeForce GTX 1080 Tiではとても遅かった

NVIDIA GPUスペック（機械学習用） - Qiita

FP32: 11.340 TFLOPSに対して FP16: 0.177 TFLOPS

2017

Huaweiの新プロセッサ「Kirin 970」で何が変わる？　「Mate 10」の存在も明らかに：IFA 2017 - ITmedia Mobile

このKirin 970が1.92TFLOPS of FP16 – 3x Faster Than Previous-Genなわけか

Huawei Reveals Kirin 970: Cat. LTE 18 With 1,200Mbps DL Speed and NPU Rated at 1.92TFLOPS of FP16 - 3x Faster Than Previous-Gen

2019

ファーウェイ制裁

米政府は19年､ファーウェイが国家安全保障の脅威になりかねない活動に関与したとして制裁措置を発動

米政府からの制裁にファーウェイは新技術で応戦 | ブルームバーグ | 東洋経済オンライン | 社会をよくする経済ニュース

ファーウェイの研究開発費はこの5年間でほぼ倍増し､2021年には221億ドル（約2兆8300億円）と､米国を除けば世界のどの企業よりも多い。

見てわかる「米中テック摩擦」なぜファーウェイ制裁？: 日本経済新聞

2018年8月米政府機関が、ファーウェイなどからの製品調達を禁止する法律が米国で成立

2019年5月米商務省がファーウェイを輸出規制の対象に追加

アメリカ側の理由は「安全保障上の懸念」ってことになっている

中国側はもちろん「安全を口実にしてる」と反発

ファーウェイは2019年8月、Ascend 910 AIコンピューティングチップを発表し、ライバルのNvidiaのTesla v100の2倍の性能を備えていると主張した。同社の発表に拠ると、半精度浮動小数点演算（FP16）では256テラフロップスを実現している。

https://www.axion.zone/hisilicon/amp/

なるほど、エッジコンピューティングのために半精度演算のニーズが高いからアメリカと中国で技術競争が発生してるのか

エッジでの画像認識、智能化戦争に書いてあった無人小型機による作戦の質に影響しそうだしね、中国としてはアメリカの企業に依存したくないだろうね

2020: NVIDIA RTX A6000リリース

2022

米政府からの制裁により、GoogleやQualcommを含む米企業と取引ができないばかりか、米企業製の半導体装置を使用するTSMCからもチップが購入できず、事業が大幅に衰退しているHuaweiが、早ければ2022年に、中国・武漢でKirinチップ生産を開始すると、台湾メディアDigiTimesが伝えています。

Huaweiは武漢にKirinチップ生産施設を設立、2022年より生産を開始する計画