ByteLevelBPETokenizer
#huggingface/tokenizers のprovided tokenizersの1つ
https://github.com/huggingface/tokenizers/blob/v0.12.0/bindings/python/README.md#provided-tokenizers
deprecatedではないが、ドキュメントに見つからない
Importing a pretrained tokenizer from legacy vocabulary files
https://huggingface.co/docs/tokenizers/python/master/quicktour.html#importing-a-pretrained-tokenizer-from-legacy-vocabulary-files
__init__
Tokenizerインスタンスを作る
Tokenizer(BPE())のラッパー
https://github.com/huggingface/tokenizers/blob/v0.12.0/bindings/python/py_src/tokenizers/implementations/byte_level_bpe.py#L16
QuicktourのTraining the tokenizerのコード +α の設定
親クラス BaseTokenizer の__init__を呼び出す
train
https://github.com/huggingface/tokenizers/blob/v0.12.0/bindings/python/py_src/tokenizers/implementations/byte_level_bpe.py#L85-L104
BpeTrainerインスタンスを作る
https://github.com/huggingface/tokenizers/blob/v0.12.0/bindings/python/py_src/tokenizers/trainers/__init__.pyi#L10
BaseTokenizer.__init__でセットされたself._tokenizerのtrainメソッドを呼び出す
save_model
親クラス BaseTokenizer 参照
tokenizers.models.BPEのsave