Unicode - kk_AtakaのScrapbox

Unicode

世界の文字を全てまとめようと作られた符号化文字集合

Unicodeの代表的な文字符号化形式がUTF-8、UTF-16など

table:Unicode

. Unicode 16進 10進 UTF-8 UTF-16 UTF-32

1. BMP U+0000 - U+007F 0x00 - 0x7F 0 - 127 1バイト 2* 4*

2.1. BMP U+0080 - U+009F 0x80 - 0x9F 128 - 159 2 2 4

2.2. BMP U+00A0 - U+03FF 0xA0 - 0x03FF 160 - 1023 2 2 4

2.3. BMP U+0400 - U+07FF 0x0400 - 0x07FF 1024 - 2047 2 2 4

3.1. BMP U+0800 - U+3FFF 0x0800 - 0x3FFF 2048 - 16383 3* 2 4

3.2. BMP U+4000 - U+FFFF 0x4000 - 0xFFFF 16384 - 65535 3* 2 4

大まかな分類

ASCII互換

UTF-16は16ビットなのでASCIIと同じ文字でも先頭に00がつくため、完全に同じではない

1バイト目のみ互換性があるという表現？

拡張文字やギリシア文字、キリル文字、ヘブライ文字、アラビア文字、シリア文字

U+03B3(γ / ガンマ)

U+03A9(Ω / オメガ)

ひらがなやカタカナ、半角カタカナ、一部の漢字(CJK統合漢字(20992文字範囲))などはここ

U+FF21(Ａ / 全角のエー)

U+FF71(ｱ / 半角のア)

顔文字、絵文字、拡張漢字(CJK統合漢字拡張)などはここ

参考