書記素
とりあえず、「人間が見て1文字と思うようなもの」を指して書記素(grapheme)といいます。
コードポイントで数えた長さもあくまで「Unicodeが値を定めている文字」の数である。「ユーザーが文字として認識するもの」の数を数えるにはもう一工夫必要になる。図1に示すように、文字の結合があり得るのだ。
https://gyazo.com/9617375440db63e4417eeacf11decab9
ユーザーは結合結果を1文字と認識する。Unicode的に複数の文字から成るといっても、[backspace]/[delete]キーで半分ずつ消えたり、テキスト選択でバラバラに選択されたりしては困ることになる。