Tokenizerを構成するファイル覚え書き
saveしてできるファイルは2パターン
vocab.json, merges.txt(2ファイル)
vocab.jsonを読み込んでencoderとする
encoderは辞書(単語 -> ID)
encoderのキーと値を逆にした辞書がdecoder
トークナイザ初期化時にtokenizer_file引数を渡さない場合、vocab.jsonの形式のJSONファイルが渡されたとする実装
辞書のキーに指定できない値を持つ場合、decoderが作れず「TypeError: unhashable type: 'list'」
tokenizer.json(1ファイル)