CLS
普通のtransformerモデルだとCLSをそのままMLPに通して分類器を構築する
本当にそれで良いの??
BERT
系だと
CLSを使うパターン
BERT
/
ViT
の画像分類タスク
後続のトークンの先頭と最後だけ使うパターン
BERT
のQAタスク
Global Average Pooling
で全トークンを圧縮するパターン
BeiT
の画像分類
がある
https://www.ai-shift.co.jp/techblog/2145
todo