AIモデル圧縮

エンジニアコラム

共同学習

Training data-efficient image transformers & distillation through attention (Touvron+ 2020)

ViTと同じアーキテクチャを使い、学習方法の改善と新たに提案した知識蒸留手法を適用

https://scrapbox.io/files/640d7e5d9be128001c6e475a.png

ヒューリスティックのアルゴリズム応用できそうやな

高速な深層学習モデルアーキテクチャ2023

オルツ、軽量かつ高精度を実現した軽量型大規模言語モデル「LHTM-OPT」を発表

～日本語LLMを評価する「Rakuda」ベンチマークで最高スコアを記録し、国産商用プライベートLLMとして国内最高に～