ByteLevelBPETokenizerの訓練

#ByteLevelBPETokenizer の train メソッドを呼び出す

2020年から更新なし

現在は Tokenizer(models.BPE()) を訓練するのが主流？

ラッパーではないのでカスタマイズ性は高そう

ByteLevelBPETokenizer.train()

BpeTrainerを作り

Tokenizer.trainを呼び出す

trainのパラメタ vocab_size=52_000

BpeTrainerのvocab_sizeの指定となる

vocab_size (int, optional) – The size of the final vocabulary, including all tokens and alphabet.

こんなにいる？

tokenizer.get_vocab_size()は19296

trainのfiles引数には["kant.txt"]を渡しているが、1ファイルだけなら"kant.txt"だけでもいい

文字列が渡ってきたら、それを要素とする長さ1のリストに変換する実装

👉 環境によってByteLevelBPETokenizerの訓練結果が違う！？（1ファイルだけなので"kant.txt"だけを渡すのを強く推奨）