Tokenizerを構成するファイル覚え書き

saveしてできるファイルは2パターン

vocab.json, merges.txt（2ファイル）

vocab.jsonを読み込んでencoderとする

encoderは辞書（単語 -> ID）

encoderのキーと値を逆にした辞書がdecoder

トークナイザ初期化時にtokenizer_file引数を渡さない場合、vocab.jsonの形式のJSONファイルが渡されたとする実装

辞書のキーに指定できない値を持つ場合、decoderが作れず「TypeError: unhashable type: 'list'」

tokenizer.json（1ファイル）