Sudachiによる自然言語処理の正規化
3.Sudachiの単語の正規化
(3) 異体字 : 【例】附属 → 付属
4.Sudachiの文字の正規化
4-1. rewrite.defで定義される文字列置換
1000行
結合文字を置換している?
実装 [m.normalized_form() for m in tokenizer_obj.tokenize(sentence, mode)]
形態素1つ1つについて正規化しているっぽい(テキストを先に一通り正規化するわけではなさそう)
「Unicode正規化」には以下の4種類が存在し、「NFKC」がよく利用されます。