BERT
BERTの新規性はMasked LM(事前学習タスク)
事前に行うタスク=「事前学習タスク(pre-training task)」
解きたかったタスク=「下流タスク(downstream task)」
渡されたパラメータを下流タスクの学習の際に固定するかしないか
固定するなら「特徴量ベースのアプローチ」
固定されたパラメータを持つモデルの部分は、特徴量抽出器の役割を果たす
固定しないなら「ファインチューニングのアプローチ」
ELMo: 特徴量ベースのアプローチ vs BERT: ファインチューニングのアプローチ
使用するのはTransformerのencoderのみ
CLSトークンとは
Transformerモデルは、CLSトークンの最後の隠れ状態をタスクに合わせたLinear層を通して予測値を出力します クラス分類などでは, CLSに情報を集約させることで, MLP headによるクラス分類やlinear probeなどが行える → BERTは事前学習に特化しているからCLSが導入される