Tokenizerに書き換えた後、RobertaTokenizerとしてどう読み込む?
RobertaTokenizerとしては読み込めない
ディレクトリを指定
そこにvocab.jsonとmerges.txtがあることを想定している
transformers.RobertaTokenizerFastとして読み込む
RobertaTokenizerFast(tokenizer_file="kantai-tokenizer.json")
Tokenizerを構成するファイル覚え書き
ref: Use tokenizers from 🤗 Tokenizers
from_pretrainedメソッドでないことに注意
get_vocabして長さを見ると、19296で一致している