CLSトークンとは何なのか
BERTで使われているトークンに[CLS]というものがある 入力の頭につける
[SEP]というのは文章の区切りにつけるもので、難しくはないが
[CLS]ってなんでつけるのか
わからないmiyamonz.icon*4
そうなるように学習させたから、というのはそれはそう
CLSに対応するtransformer encoderの最終層のノードを、分類問題に使う
https://gyazo.com/cd703aa4ad2a52672053de2b83c94ac0
https://gyazo.com/b17e30cc1b1167579dc310d93e3b94ec
なぜCLSを使うと分類問題を学習できるのか、というのは論理が逆になっている気がするmiyamonz.icon
とにかく
特殊なCLSトークンを作り、
先頭をこれで確保して、
それを分類問題用のレイヤに接続して学習を回したから、
その部分が分類問題に使えるようになっただけ、とも言える
考えるべきは
それが難しいからCLSをつけた
それで学習したらうまくいった?