UTF-8
#文字符号化方式 #文字コード
UTF-8は、ISO/IEC 10646ならびにUnicodeで使える文字符号化形式ならびに文字符号化スキーム
https://ja.wikipedia.org/wiki/UTF-8
エンコード
code:encoding
U+0000 .. U+007F (7 bit): 0xxxxxxx
U+0080 .. U+07FF (11 bit): 110xxxxx 10xxxxxx
U+0800 .. U+FFFF (16 bit): 1110xxxx 10xxxxxx 10xxxxxx
U+10000 .. U+10FFFF (21 bit): 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
日本語
日本語のひらがな・カタカナ・漢字等を含む範囲は、
CJK Symbols and Punctuation: U+3000 .. U+303F
ひらがな: U+3040 .. U+309F
カタカナ: U+30A0 .. U+30FF
CJK Unified Ideographs: U+4E00..U+9FFF
ということで、和文ほぼすべてのキャラクターは、UTF-8で表現するのに3bit必要
UTF-16と比べると、UTF-8はあんまり日本語とは相性の良い符号化形式ではないんだねえ