Unicode
世界中の文字を1つの文字集合で表現するための符号化文字集合
随時追加されていてUnicodeはバージョンアップされている
21bitの符号化文字集合
16bit毎のまとまり ... 面と呼ぶ Plane?
第0面から第16面までの17面ある
1つの面に$ 2^{16}個の文字が入る
第0面 Basic Multilingual Plane
第1面 Supplementary Multilingual Plane
コードポイント
文字が収録されている位置をコードポイントという
U+XXXXXX 4~6桁の16進数
BMPの文字は4桁
BMP以外の文字は5~6桁
符号空間はU+0000からU+10FFFF
CJK統合漢字
中国日本韓国で字体が同じ感じは1つのコードポイントにまとめている
漢字の「漢」は全てU+6F22
既存の多くの言語の文字コードの大部分を包括する
古いシステムは後者、最近のシステムはほとんどUTF-8が使われる