Sudachiによる自然言語処理の正規化

3.Sudachiの単語の正規化

(3) 異体字 : 【例】附属 → 付属

4.Sudachiの文字の正規化

4-1. rewrite.defで定義される文字列置換

1000行

結合文字を置換している？

実装 [m.normalized_form() for m in tokenizer_obj.tokenize(sentence, mode)]

形態素1つ1つについて正規化しているっぽい（テキストを先に一通り正規化するわけではなさそう）

「Unicode正規化」には以下の4種類が存在し、「NFKC」がよく利用されます。