Unicode
ISO/IEC 10646 とほぼ互換
もともと 2 bytes, 最大 0xffff だったが、4 bytes になった
ただし最大値は 0xffffffff ではなく 0x0010fffff
Unicode は group, plane, row, cell から構成されるが、つまり group の最初、plane の 0x10、までしか使っていない
めっちゃ余っている
0xffff までを BMP
結合文字
基底文字と結合文字があり、後者は単体で用いられない
Unicode では A と A が別で定義されている
これらは本来同じ文字を指しているので Unicode 的には一つになるべきだが、、
他の文字コードからの変換を可逆的におこなうため
Unicode 正規化って