BERT - 🍣YuWd(和田唯我)のメモ🍣

BERT

BERTの新規性はMasked LM(事前学習タスク)

事前に行うタスク=「事前学習タスク(pre-training task)」

解きたかったタスク=「下流タスク(downstream task)」

渡されたパラメータを下流タスクの学習の際に固定するかしないか

固定するなら「特徴量ベースのアプローチ」

固定されたパラメータを持つモデルの部分は、特徴量抽出器の役割を果たす

固定しないなら「ファインチューニングのアプローチ」

ELMo: 特徴量ベースのアプローチ vs BERT: ファインチューニングのアプローチ

Transformer ベースのモデル

使用するのはTransformerのencoderのみ

CLSトークンとは

Transformerモデルは、CLSトークンの最後の隠れ状態をタスクに合わせたLinear層を通して予測値を出力します

クラス分類などでは, CLSに情報を集約させることで, MLP headによるクラス分類やlinear probeなどが行える

→ BERTは事前学習に特化しているからCLSが導入される