UTF-8
エンコード
code:encoding
U+0000 .. U+007F (7 bit): 0xxxxxxx
U+0080 .. U+07FF (11 bit): 110xxxxx 10xxxxxx
U+0800 .. U+FFFF (16 bit): 1110xxxx 10xxxxxx 10xxxxxx
U+10000 .. U+10FFFF (21 bit): 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
日本語
ということで、和文ほぼすべてのキャラクターは、UTF-8で表現するのに3bit必要
UTF-16と比べると、UTF-8はあんまり日本語とは相性の良い符号化形式ではないんだねえ