Unicode - 未来の自分を助けるメモ

Unicode

世界中の文字をindexしたもの？

コードポイントというindexと、その文字と、その文字に関するメータデータが記載されている。

符号化文字集合

エンコードの話も書いてある。

符号化方式

コードポイントの羅列が連なったbyteの情報が来たときに、端末は

それをどう区切って読むか

区切ったものをどう読むかの決めごとが必要

UTF-8

これにより4バイトで21bit、6バイトで31bitまで表現することができる。

なわち、任意のバイトの先頭ビットが "0" なら1バイト文字、"10" なら2バイト以上の文字の2番目以降のバイト、"110" なら2バイト文字の先頭バイト、"1110" なら3バイト文字の先頭バイト、"11110" なら4バイト文字の先頭バイトであると判定できる。

どう区切るかは、1がどれだけ続くかでわかる。

アスキー文字は、0から始まる。でいいかな。

UTF-16

UTF-32