transformers.PreTrainedTokenizerBase
from_pratrained
第1引数 pretrained_model_name_or_path
渡し方(いくつかサポート)
A path to a directory containing vocabulary files required by the tokenizer
返り値 cls._from_pretrained(...)
from_pretrainedで使わなかったkwargsが渡る
例:max_length
from_pretrainedで返したオブジェクトはencode(...)でテキストをトークンのID列にできる
Converts a string to a sequence of ids (integer), using the tokenizer and vocabulary.
Same as doing self.convert_tokens_to_ids(self.tokenize(text)).