SentencePieceのユニグラム言語モデル

SentencePieceのユニグラム言語モデルについて

https://gyazo.com/60c096fa001c7a81578e8c1e99c021e7

サブワード正則化: 複数のサブワード分割候補を用いたニューラル機械翻訳工藤拓 2008

例えば、文字列ABCがあって、語彙集合に各文字とABとが入っている場合に$ p(AB) > p(A)p(B)が成り立つなら"AB/C"の分割の方が"A/B/C"の分割よりもP(x)が大きくなる

で、この手法だとVを事前に与える必要があるため、十分に大きな語彙からスタートして刈り込んで行く

https://gyazo.com/3de118fd9537e450c1e530d352ddf00d

Subword regularization: Improving neural network translation models with multiple subword candidates. In Proc. of ACL.

SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

Taku Kudo, John Richardson (Submitted on 19 Aug 2018)