Tokenizer
トークナイザ_
テキストを意味のある単位に分割(=
tokenize
)する処理を行うプログラムのこと
例
code:_
入力: "I love natural language processing"
出力:
"I", "love", "natural", "language", "processing"