4ab46088eec4,042

http://nhiro.org.s3.amazonaws.com/9/2/92daf4566df1ec5c151848ecaf5ed74d.jpg https://gyazo.com/92daf4566df1ec5c151848ecaf5ed74d

(OCR text)

マスクの不要な問題を選定

BERTがpre-trainで使う「穴埋め問題」は

周囲の単語を読めても正解がわからないので

Transformer上でのmaskが必要ない!

データの側をマスクすることでBERTは

左右両方の文脈を同時に使うことができる

BERT (Ours)

OpenAl GPT

ELMO

т,

Trm

Lstm

Trm

Lstm

E E

Figure 1: Differences in pre-training model architectures. BERT uses a bidirectional Transformer. OpenAI GPT

uses a left-to-right Transformer. ELMO uses the concatenation of independently trained left-to-right and right-