Tokenizerに書き換えた後、RobertaTokenizerとしてどう読み込む？ - nikkie-memos

Tokenizerに書き換えた後、RobertaTokenizerとしてどう読み込む？

RobertaTokenizerとしては読み込めない

ディレクトリを指定

そこにvocab.jsonとmerges.txtがあることを想定している

transformers.RobertaTokenizerFastとして読み込む

RobertaTokenizerFast(tokenizer_file="kantai-tokenizer.json")

Tokenizerを構成するファイル覚え書き

ref: Use tokenizers from 🤗 Tokenizers

from_pretrainedメソッドでないことに注意

get_vocabして長さを見ると、19296で一致している