文字コード
一般に文字コードと呼ばれているものは、以下を組み合わせたものになっている。区別されていないことが多い。
文字集合(Character Set、キャラクタセット、文字セット、文字集合)
文字の意味のみが定義される。
符号化文字集合(CCS:Coded Character Set)
文字の一つ一つに番号が定義される。
Unicode では U+xxxx という番号
文字符号化方式(CES:Character Encoding Scheme)
文字の番号とビット列との変換方法が定義される。
Unicode では UTF-8、UTF-16、UTF-32 など。
さらに、オクテットストリームでの順番で、UTF-16LE、UTF-16BE などの区別がある。
IANA で文字集合の名前が定義されている。
HTTP、SMTP、MIME などの Content-Type の charset などで使われる。
大文字小文字を区別しない。
この名前以外を独自に使う場合は、独自拡張として、"x-" を頭に付けることになっている。
x-mac-japanese など
OS、言語、ライブラリなどで勝手に拡張されていることがある。
Microsoft
Windows code page という独自の番号が割り当てられている。
Linux
iconv が文字コード変換をほぼやっている
対応文字コード一覧を見るなら iconv -l コマンド