SentencePieceのユニグラム言語モデル
https://gyazo.com/60c096fa001c7a81578e8c1e99c021e7
例えば、文字列ABCがあって、語彙集合に各文字とABとが入っている場合に$ p(AB) > p(A)p(B)が成り立つなら"AB/C"の分割の方が"A/B/C"の分割よりもP(x)が大きくなる
で、この手法だとVを事前に与える必要があるため、十分に大きな語彙からスタートして刈り込んで行く
https://gyazo.com/3de118fd9537e450c1e530d352ddf00d
Subword regularization: Improving neural network translation models with multiple subword candidates. In Proc. of ACL.
SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing
Taku Kudo, John Richardson (Submitted on 19 Aug 2018)