UTF-8 - 0b5vr

UTF-8

#文字符号化方式 #文字コード

UTF-8は、ISO/IEC 10646ならびにUnicodeで使える文字符号化形式ならびに文字符号化スキーム

https://ja.wikipedia.org/wiki/UTF-8

エンコード

code:encoding

U+0000 .. U+007F (7 bit): 0xxxxxxx

U+0080 .. U+07FF (11 bit): 110xxxxx 10xxxxxx

U+0800 .. U+FFFF (16 bit): 1110xxxx 10xxxxxx 10xxxxxx

U+10000 .. U+10FFFF (21 bit): 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

日本語

日本語のひらがな・カタカナ・漢字等を含む範囲は、

CJK Symbols and Punctuation: U+3000 .. U+303F

ひらがな: U+3040 .. U+309F

カタカナ: U+30A0 .. U+30FF

CJK Unified Ideographs: U+4E00..U+9FFF

ということで、和文ほぼすべてのキャラクターは、UTF-8で表現するのに3bit必要

UTF-16と比べると、UTF-8はあんまり日本語とは相性の良い符号化形式ではないんだねえ