大規模言語モデル入門
https://m.media-amazon.com/images/I/51g9GdgZNyL._SX218_BO1,204,203,200_QL40_ML2_.jpg
大規模コーパスを使って事前学習したモデルを、転移学習によって下流タスクに適用する 単語の予測
1つの文でどこをマスクするかによって一般知識と文法的な知識を学習できる
ヘッド: 事前学習済みモデルに追加され、出力を下流タスクに合わせて変換する層
下流タスクを解く際に特殊トークン で入力テキストを拡張する
BERT の B は Bidirectional
前後の双方向から文脈を捉えられるようにしたから
エンコーダ構成の Transformer
<CLS> や <SEP> などの特殊トークンはモデルによる
BERT 由来がよく知られてるのでそう表記するけど読み替える
Tokenization
バイト対符号化
文字からサブワードの組を結合していく
よく使われる文字単位のバイト符号化実装 → SentencePiece
WordPiece
BERT
RLHF: Reinforcement learning from human feedback