AIの圧縮・高速化
エンジニアコラム
共同学習
Training data-efficient image transformers & distillation through attention (Touvron+ 2020)
ViTと同じアーキテクチャを使い、学習方法の改善と新たに提案した知識蒸留手法を適用
https://scrapbox.io/files/640d7e5d9be128001c6e475a.png
ヒューリスティックのアルゴリズム応用できそうやな
高速な深層学習モデルアーキテクチャ2023
オルツ、軽量かつ高精度を実現した軽量型大規模言語モデル「LHTM-OPT」を発表
~日本語LLMを評価する「Rakuda」ベンチマークで最高スコアを記録し、国産商用プライベートLLMとして国内最高に~
深層ニューラルネットワークの高速化 (ML Systems)
第1章 はじめに
第2章 高速化手法の概要
第3章 量子化と低精度化
第4章 枝刈り
第5章 蒸留
第6章 低ランク近似
第7章 高速なアーキテクチャ
第8章 チューニングのためのツール
第9章 効率的な訓練
「深層ニューラルネットワークの高速化」読んだらめっちゃ良かったよって話
Distilling the Knowledge in a Neural Network
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float
Sebastian Raschka氏が LLM の推論高速化技術である KV キャッシュについて解説。LLM はテキスト生成時に各ステップで同じキーと値のベクトルを再計算する非効率性がある。KV キャッシュは以前に計算したキーと値のベクトルを保存し再利用することで計算量を削減する技術である。実装では MultiHeadAttention クラスにキャッシュバッファを追加し、use_cache フラグで制御する。新しいトークンのみを計算し既存のキーと値を連結して使用する。124M パラメータモデルで約5倍の高速化を実現した。メモリ使用量増加が欠点だが事前割り当てやスライディングウィンドウで最適化可能である。
Unified Scaling Laws for Compressed Representations
Compression Scaling Laws: Unifying Sparsity and Quantization