BERT - Miyabi

BERT

基本的には、Transformerの仕組みに事前学習-ファインチューニングのステップを導入したもの

ただし初出ではなく、Transformer + 事前学習-ファインチューニングは前述のOpenAI GPTで既に行われていた。

どこが違うか？

事前学習に工夫

Masked Language Model”**というタスクを学習する

Transformerを双方向にしたこと

事前学習に**“Next Sentence Predction

ある文章が前の文章の続きかどうかを予測するタスクを加えた

文章間の関係を学習させたこと

OpenAI GPTのTransformerの事前学習は、文章を読んで次の単語を予測する、というタスクを解いていました。つまり、文章を左から右にしか読んでいない、単方向のモデルでした。それをBERTでは、文章中のいくつかの単語をマスキングし、そのマスキングされた単語を予測するMasked Language Modelというタスクを課すことでTransformerを双方向にしたのです。

そして、このMasked Language ModelとNext Sentence PredictionというタスクをWikipediaやBooksCorpusという大量のデータを使って解くことにより、非常に汎用的で強力なモデルが構築されました。