BERT
基本的には、Transformerの仕組みに事前学習-ファインチューニングのステップを導入したもの
ただし初出ではなく、Transformer + 事前学習-ファインチューニングは前述のOpenAI GPTで既に行われていた。
どこが違うか?
事前学習に工夫
Masked Language Model”**というタスクを学習する
Transformerを双方向にしたこと
事前学習に**“Next Sentence Predction
ある文章が前の文章の続きかどうかを予測するタスクを加えた
文章間の関係を学習させたこと
OpenAI GPTのTransformerの事前学習は、文章を読んで次の単語を予測する、というタスクを解いていました。つまり、文章を左から右にしか読んでいない、単方向のモデルでした。それをBERTでは、文章中のいくつかの単語をマスキングし、そのマスキングされた単語を予測するMasked Language Modelというタスクを課すことでTransformerを双方向にしたのです。
そして、このMasked Language ModelとNext Sentence PredictionというタスクをWikipediaやBooksCorpusという大量のデータを使って解くことにより、非常に汎用的で強力なモデルが構築されました。