Tokenizerに書き換えた後、RobertaTokenizerとしてどう読み込む?
RobertaTokenizer
としては読み込めない
ディレクトリを指定
そこにvocab.jsonとmerges.txtがあることを想定している
transformers.RobertaTokenizerFast
として読み込む
RobertaTokenizerFast(tokenizer_file="kantai-tokenizer.json")
Tokenizerを構成するファイル覚え書き
ref:
Use tokenizers from 🤗 Tokenizers
from_pretrainedメソッド
でない
ことに注意
get_vocab
して長さを見ると、19296で一致している