Tinybert
Tinybert
蒸留でbertを小型化
推論の高速化が目標
文のベクトル化,位置情報埋め込み? > Transformerという構造?
文について,特定の関係を得るための行列を得る
3種類
関係ごとに3種類重みがあり,行列が存在
単語について,以下の三つの重みが必要
Q: query, 単語が何を対象にするか,探しているか
K: key, 単語が他の単語にどう見られたいか
V: Value, 単語の意味そのもの
Attention行列に変換
ある単語がどの単語に注意しているかを表現
一つの文に対し,複数の解釈が可能
それらをまとめた行列がMulti-Head-Attention
Feed-Forwad-Network
特徴をより大きく捉えるために使用
末尾二つがTransformerの役割?
誤差は学習データをマスクして推測させて求める
質問
重みの初期値は?
多分ランダム
重みの行列のカラムの意味は何?
単語同士の関係を表現するための値なんだっけ
QとKを掛け算するのは?
どの単語がどの単語に注目しているのかが分かる
意味合い的にそうなるらしい
精度向上と推論の速度のどちらが重要?
元々は精度向上を目指していた
その上で推論速度も維持したい
蒸留を何か使えないか考えている
fast-textを弄るかどうか
fast-textに蒸留するのは何らかの効果が期待できる?
多分精度は上がらない
Gene-bertを使う予定
そちらを蒸留する???