AIモデル圧縮
エンジニアコラム
共同学習
Training data-efficient image transformers & distillation through attention (Touvron+ 2020)
ViTと同じアーキテクチャを使い、学習方法の改善と新たに提案した知識蒸留手法を適用
https://scrapbox.io/files/640d7e5d9be128001c6e475a.png
ヒューリスティックのアルゴリズム応用できそうやな
高速な深層学習モデルアーキテクチャ2023
オルツ、軽量かつ高精度を実現した軽量型大規模言語モデル「LHTM-OPT」を発表
~日本語LLMを評価する「Rakuda」ベンチマークで最高スコアを記録し、国産商用プライベートLLMとして国内最高に~