BERTでまだよくわかってないとこ
あと全体像がまだ
hidden sizeの意味?がよくわかってない
単語を埋め込むためのベクトルのサイズだと思っているがあってるかしら
論文
https://gyazo.com/868497bc630aaa17c59a9ee40137db30
hidden dimension sizeかな?
bertのソース
hidden_size: Size of the encoder layers and the pooler layer.
encoderレイヤーのsizeってのは、スタック数のことではないよな?
そっちはnum_hidden_layersだ
sizeは次元のサイズだよな
上記の理解で合ってるなら, hidden sizeはトークンを処理する際の埋め込みのための次元であり、
外部的な制約によって固定される値ではなく
あくまで埋め込むための次元なので、ちょうどいい数値を選ぶ必要がある
ということだとおもう
ただ、比較のためにその他のモデルと合わせるということはあるはず
あと自分が知るべきは、その他の手法のモデルにおけるhidden dimensionはどんくらいなのか
あとそれを埋め込むための行列とかがあるのかどうかかな