Tinybert - main-custard

Tinybert

from 研究室輪読メモ-5

Tinybert

蒸留でbertを小型化

推論の高速化が目標

文のベクトル化,位置情報埋め込み? > Transformerという構造?

文について,特定の関係を得るための行列を得る

3種類

関係ごとに3種類重みがあり,行列が存在

単語について,以下の三つの重みが必要

Q: query, 単語が何を対象にするか,探しているか

K: key, 単語が他の単語にどう見られたいか

V: Value, 単語の意味そのもの

Attention行列に変換

ある単語がどの単語に注意しているかを表現

一つの文に対し,複数の解釈が可能

それらをまとめた行列がMulti-Head-Attention

Feed-Forwad-Network

特徴をより大きく捉えるために使用

末尾二つがTransformerの役割?

誤差は学習データをマスクして推測させて求める

質問

重みの初期値は?

多分ランダム

重みの行列のカラムの意味は何?

単語同士の関係を表現するための値なんだっけ

QとKを掛け算するのは?

どの単語がどの単語に注目しているのかが分かる

意味合い的にそうなるらしい

精度向上と推論の速度のどちらが重要?

元々は精度向上を目指していた

その上で推論速度も維持したい

蒸留を何か使えないか考えている

fast-textを弄るかどうか

fast-textに蒸留するのは何らかの効果が期待できる?

多分精度は上がらない

Gene-bertを使う予定

そちらを蒸留する???