LMとMasked LM
language model
と
Masked LM
https://gyazo.com/4bf408523dc2f6079a88f1df35fd62ea
https://ai.googleblog.com/2020/03/more-efficient-nlp-model-pre-training.html
言語モデルというのは、長さnの列から定まる、トークンの確率分布ということだったが
左図のように、次のトークンの確率
という意味として使われたりする
それと比較する上で、masked LMを言う場合は、全体を渡した上でMASKを予測することを言う
総称と一部の関係で名前の意味がずれるやつ