tokenizerによるエンコード
ByteLevelBPETokenizerはロードしている
return self._tokenizer.encode(...)
Encodingオブジェクトが返る
Encoding.tokensで人間が解釈できる表示となる
BERT向けに開始トークンと終了トークンを追加する
tokenizer._tokenizer.post_processor = BertProcessing(...)
Tokenizerのpost_processor属性に
BertProcessingオブジェクトを代入
SEPとCLSのトークンを指定
指定の仕方はタプルで("トークン", ID)
BaseTokenizerの実装を見ると、直接指定できる
enable_truncation