transformers.BertJapaneseTokenizer
__getstate__・__setstate__の実装が簡潔。参考にしたい
code:example.py
>> from transformers import BertJapaneseTokenizer
>> tokenizer = BertJapaneseTokenizer.from_pretrained("cl-tohoku/bert-base-japanese-whole-word-masking")
>> tokenizer.tokenize("アイの歌声を聴かせて") # word_tokenizer.tokenizeと常に同じ?(未確認)
>> tokenizer.word_tokenizer.tokenize("アイの歌声を聴かせて")
>> tokenizer.subword_tokenizer.tokenize("アイの歌声を聴かせて") # 1つの語としてトークナイズした?