Sudachiによる自然言語処理の正規化
https://note.com/npaka/n/nd0a78d75bba3
3.Sudachiの単語の正規化
(3) 異体字 : 【例】附属 → 付属
4.Sudachiの文字の正規化
4-1. rewrite.defで定義される文字列置換
https://github.com/WorksApplications/Sudachi/blob/develop/src/main/resources/rewrite.def
1000行
結合文字を置換している?
実装 [m.normalized_form() for m in tokenizer_obj.tokenize(sentence, mode)]
形態素1つ1つについて正規化しているっぽい(テキストを先に一通り正規化するわけではなさそう)
「Unicode正規化」には以下の4種類が存在し、「NFKC」がよく利用されます。
👉NFKC NFKD