transformers.BertJapaneseTokenizer

fugashi を使っている

__getstate__・__setstate__の実装が簡潔。参考にしたい

code:example.py

>> from transformers import BertJapaneseTokenizer

>> tokenizer = BertJapaneseTokenizer.from_pretrained("cl-tohoku/bert-base-japanese-whole-word-masking")

>> tokenizer.tokenize("アイの歌声を聴かせて") # word_tokenizer.tokenizeと常に同じ？（未確認）

>> tokenizer.word_tokenizer.tokenize("アイの歌声を聴かせて")

>> tokenizer.subword_tokenizer.tokenize("アイの歌声を聴かせて") # 1つの語としてトークナイズした？