AIの圧縮・高速化
ニューラル構造探索(NAS)
LLMの圧縮・高速化
並列計算とスパコン
エンジニアコラム
https://laboro.ai/activity/column/engineer/ディープラーニングを軽量化するモデル圧縮/
共同学習
https://t.co/MgJZQdyDzd
https://twitter.com/sam_murayama/status/1634480952922771456?s=20
Training data-efficient image transformers & distillation through attention (Touvron+ 2020)
ViTと同じアーキテクチャを使い、学習方法の改善と新たに提案した知識蒸留手法を適用
https://scrapbox.io/files/640d7e5d9be128001c6e475a.png
ヒューリスティックのアルゴリズム応用できそうやな
ヒューリスティックコンテスト
メタヒューリスティクス
高速な深層学習モデルアーキテクチャ2023
https://speakerdeck.com/yu4u/gao-su-nashen-ceng-xue-xi-moteruakitekutiya2023
オルツ、軽量かつ高精度を実現した軽量型大規模言語モデル「LHTM-OPT」を発表
~日本語LLMを評価する「Rakuda」ベンチマークで最高スコアを記録し、国産商用プライベートLLMとして国内最高に~
https://alt.ai/news/news-2300/
深層ニューラルネットワークの高速化 (ML Systems)
https://github.com/joisino/speedbook
第1章 はじめに
第2章 高速化手法の概要
第3章 量子化と低精度化
第4章 枝刈り
第5章 蒸留
第6章 低ランク近似
第7章 高速なアーキテクチャ
第8章 チューニングのためのツール
第9章 効率的な訓練
「深層ニューラルネットワークの高速化」読んだらめっちゃ良かったよって話
https://fam-taro.hatenablog.com/entry/2024/12/07/180522
Distilling the Knowledge in a Neural Network
https://arxiv.org/abs/1503.02531
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float
https://arxiv.org/abs/2504.11651
https://sebastianraschka.com/blog/2025/coding-the-kv-cache-in-llms.html
Sebastian Raschka氏が LLM の推論高速化技術である KV キャッシュについて解説。LLM はテキスト生成時に各ステップで同じキーと値のベクトルを再計算する非効率性がある。KV キャッシュは以前に計算したキーと値のベクトルを保存し再利用することで計算量を削減する技術である。実装では MultiHeadAttention クラスにキャッシュバッファを追加し、use_cache フラグで制御する。新しいトークンのみを計算し既存のキーと値を連結して使用する。124M パラメータモデルで約5倍の高速化を実現した。メモリ使用量増加が欠点だが事前割り当てやスライディングウィンドウで最適化可能である。
Unified Scaling Laws for Compressed Representations
https://arxiv.org/pdf/2506.01863
Compression Scaling Laws: Unifying Sparsity and Quantization
https://arxiv.org/pdf/2502.16440