AIの圧縮・高速化 - yuyan

AIの圧縮・高速化

ニューラル構造探索(NAS)

LLMの圧縮・高速化

並列計算とスパコン

エンジニアコラム

https://laboro.ai/activity/column/engineer/ディープラーニングを軽量化するモデル圧縮/

共同学習

https://t.co/MgJZQdyDzd

https://twitter.com/sam_murayama/status/1634480952922771456?s=20

Training data-efficient image transformers & distillation through attention (Touvron+ 2020)

ViTと同じアーキテクチャを使い、学習方法の改善と新たに提案した知識蒸留手法を適用

https://scrapbox.io/files/640d7e5d9be128001c6e475a.png

ヒューリスティックのアルゴリズム応用できそうやな

ヒューリスティックコンテスト

メタヒューリスティクス

高速な深層学習モデルアーキテクチャ2023

https://speakerdeck.com/yu4u/gao-su-nashen-ceng-xue-xi-moteruakitekutiya2023

オルツ、軽量かつ高精度を実現した軽量型大規模言語モデル「LHTM-OPT」を発表

～日本語LLMを評価する「Rakuda」ベンチマークで最高スコアを記録し、国産商用プライベートLLMとして国内最高に～

https://alt.ai/news/news-2300/

深層ニューラルネットワークの高速化 (ML Systems)

https://github.com/joisino/speedbook

第1章はじめに

第2章高速化手法の概要

第3章量子化と低精度化

第4章枝刈り

第5章蒸留

第6章低ランク近似

第7章高速なアーキテクチャ

第8章チューニングのためのツール

第9章効率的な訓練

「深層ニューラルネットワークの高速化」読んだらめっちゃ良かったよって話

https://fam-taro.hatenablog.com/entry/2024/12/07/180522

Distilling the Knowledge in a Neural Network

https://arxiv.org/abs/1503.02531

70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float

https://arxiv.org/abs/2504.11651

https://sebastianraschka.com/blog/2025/coding-the-kv-cache-in-llms.html

Sebastian Raschka氏が LLM の推論高速化技術である KV キャッシュについて解説。LLM はテキスト生成時に各ステップで同じキーと値のベクトルを再計算する非効率性がある。KV キャッシュは以前に計算したキーと値のベクトルを保存し再利用することで計算量を削減する技術である。実装では MultiHeadAttention クラスにキャッシュバッファを追加し、use_cache フラグで制御する。新しいトークンのみを計算し既存のキーと値を連結して使用する。124M パラメータモデルで約5倍の高速化を実現した。メモリ使用量増加が欠点だが事前割り当てやスライディングウィンドウで最適化可能である。

Unified Scaling Laws for Compressed Representations

https://arxiv.org/pdf/2506.01863

Compression Scaling Laws: Unifying Sparsity and Quantization

https://arxiv.org/pdf/2502.16440