ByteLevelBPETokenizerの訓練
2020年から更新なし
現在は Tokenizer(models.BPE()) を訓練するのが主流?
ラッパーではないのでカスタマイズ性は高そう
ByteLevelBPETokenizer.train()
BpeTrainerを作り
Tokenizer.trainを呼び出す
trainのパラメタ vocab_size=52_000
BpeTrainerのvocab_sizeの指定となる
vocab_size (int, optional) – The size of the final vocabulary, including all tokens and alphabet.
こんなにいる?
tokenizer.get_vocab_size()は19296
trainのfiles引数には["kant.txt"]を渡しているが、1ファイルだけなら"kant.txt"だけでもいい
文字列が渡ってきたら、それを要素とする長さ1のリストに変換する実装