ByteLevelBPETokenizerからTokenizer(BPE())の書き換えの検証
保存してあるファイルを読み込み、vocabが同じことを確認
code:assert_tokenizers.py
from tokenizers import ByteLevelBPETokenizer, Tokenizer
new_tokenizer = Tokenizer.from_file("kantai-tokenizer.json")
old_tokenizer = ByteLevelBPETokenizer(
"KantaiBERT/vocab.json", "KantaiBERT/merges.txt"
)
assert new_tokenizer.get_vocab_size() == old_tokenizer.get_vocab_size()
assert new_tokenizer.get_vocab() == old_tokenizer.get_vocab()