ELECTRA
Submitted on 23 Mar 2020
https://gyazo.com/2a998c00e4f8c4f89a9b76e8fed4409a
The x-axis shows the amount of compute used to train the model (measured in FLOPs) and the y-axis shows the dev GLUE score. ELECTRA learns much more efficiently than existing pre-trained NLP models. Note that current best models on GLUE such as T5 (11B) do not fit on this plot because they use much more compute than others (around 10x more than RoBERTa). Efficiently Learning an Encoder that Classifies Token Replacements Accurately
トークンの置き換えを正確に分類してエンコーダーを効率的に学習
google ai blogの意訳
既存のNLP用の事前トレーニング手法には言語モデルとマスク言語モデルの2種類がある
双方向なので言語モデルより優位だが入力文の全てを学習に利用できない欠点がある
注意miyamonz.icon
ここで言う言語モデルというのは、左から右の単方向で次単語を予測するヤツのことを言っている はず
ELECTRAはRTDと呼ばれる新しい手法で両者の良いところを取り入れ少ないデータで効率的な学習が可能
例えば、ELECTRAは、従来の1/4未満の計算量で、GLUE自然言語理解ベンチマークでRoBERTaおよびXLNetのパフォーマンスに匹敵し、SQuAD質問回答ベンチマークで最先端の結果を達成します。
ELECTRAの優れた効率性は、小規模でも十分に機能することを意味します。30倍以上の計算量を必要とするモデルであるGPTよりも高い精度です。単一のGPUで数日でトレーニングできます。
事前トレーニングの高速化
スペイン語でやる例
googleの実装でpretrain
後にtransformersように変換