大規模言語モデル入門

https://m.media-amazon.com/images/I/51g9GdgZNyL._SX218_BO1,204,203,200_QL40_ML2_.jpg

大規模コーパスを使って事前学習したモデルを、転移学習によって下流タスクに適用する

単語の予測

1つの文でどこをマスクするかによって一般知識と文法的な知識を学習できる

ヘッド: 事前学習済みモデルに追加され、出力を下流タスクに合わせて変換する層

下流タスクを解く際に特殊トークンで入力テキストを拡張する

BERT の B は Bidirectional

前後の双方向から文脈を捉えられるようにしたから

エンコーダ構成の Transformer

<CLS> や <SEP> などの特殊トークンはモデルによる

BERT 由来がよく知られてるのでそう表記するけど読み替える

Tokenization

バイト対符号化

文字からサブワードの組を結合していく

よく使われる文字単位のバイト符号化実装 → SentencePiece

WordPiece

BERT

RLHF: Reinforcement learning from human feedback