文字コードとは
文字コードとは、自然言語(英語や日本語など)の文字をコンピュータ上で取り扱えるように番号(コード(code)、符号)を付けたもの。
「文字符号」とも呼ばれる。
文字と番号の対応は規格によって異なる。
現在は、ほとんどの国で個別に使われていた文字コード規格の文字を統合した Unicode という規格が全世界で使われるようになった。
例として Unicode では、以下のように番号が付く。
A → U+0041
あ → U+3042
漢 → U+6F22
U+ というのは Unicode で表しているという意味。
続く数字は16進数になっている。
Unicode が一般的に使われるようになる前には、各国で独自の文字コード規格を作ってしまっていた。
独自のと言っても、互換性が必要なため、ASCII はほぼどこでも使えるように工夫されていた。
日本は JIS X 0201, JIS X 0208, JIS X 0213、これをエンコードするためのものとして ISO-2022-JP, Shift_JIS, EUC-JP
中国は GB 2312, GB18030、これをエンコードするものとして HZ, EUC-CN
欧米諸国は ISO 8859 (8bit コード)で、バリエーションとして ISO-8859-1~ISO-8859-16
このため、各文字コード間で変換が必要だったり、その場その場で切り換えなければならなかった。