4ab46088eec4,042
http://nhiro.org.s3.amazonaws.com/9/2/92daf4566df1ec5c151848ecaf5ed74d.jpg https://gyazo.com/92daf4566df1ec5c151848ecaf5ed74d
(OCR text)
43
マスクの不要な問題を選定
BERTがpre-trainで使う「穴埋め問題」は
周囲の単語を読めても正解がわからないので
Transformer上でのmaskが必要ない!
データの側をマスクすることでBERTは
左右両方の文脈を同時に使うことができる
BERT (Ours)
OpenAl GPT
ELMO
т,
T2
TL
T2
TN
TN
TN
Trm
Trm
Trm
Trm
Trm
Trm
Lstm
Lstm
Lstm
Lstm
Lstm
Lstm
Trm
Trm
Trm
Trm
Trm
Trm
Lstm
Lstm
Lstm
Lstm
Lstm
Lstm
E E
Et
E2
EN
EN
E
E2
EN
Figure 1: Differences in pre-training model architectures. BERT uses a bidirectional Transformer. OpenAI GPT
uses a left-to-right Transformer. ELMO uses the concatenation of independently trained left-to-right and right-