Unicode
世界中の文字をindexしたもの?
コードポイントというindexと、その文字と、その文字に関するメータデータが記載されている。
符号化文字集合
エンコードの話も書いてある。
符号化方式
コードポイントの羅列が連なったbyteの情報が来たときに、端末は
それをどう区切って読むか
区切ったものをどう読むかの決めごとが必要
UTF-8
これにより4バイトで21bit、6バイトで31bitまで表現することができる。
なわち、任意のバイトの先頭ビットが "0" なら1バイト文字、"10" なら2バイト以上の文字の2番目以降のバイト、"110" なら2バイト文字の先頭バイト、"1110" なら3バイト文字の先頭バイト、"11110" なら4バイト文字の先頭バイトであると判定できる。
どう区切るかは、1がどれだけ続くかでわかる。
アスキー文字は、0から始まる。でいいかな。
UTF-16
UTF-32