文字コード
軽く文字集合と符号化方式に分けられる
文字集合とFontのものとは若干違うこともある
基本的に交換用(通信、保存等)には Unicode, UTF-8 を使えば間違いは少ない
プログラム内部ではUTF-16 や UTF-32 / UCS-4が使われることもある
他の文字コードは過去の遺産との互換性のために利用される
文字集合
Unicode と ISO 10646, JIS X 0221 はほぼ同じ ISO 646 US-ASCIIっぽい 基本だがそれぞれ若干違う
ISO 8859-x US-ASCII を非漢字圏用に 8bitに拡張したシリーズ いろいろある
JIS X 0201 7bit 8bit 文字 (制御文字除く) JIS X 0208 第一水準漢字、第二水準漢字
JIS X 0211 制御文字
JIS X 0212 補助漢字
JIS X 0213 JIS X 0208に第三水準、第四水準など追加したもの JIS 2000 や JIS 2004 とか言われるもの
KS X 1001 韓国
中国
台湾
外字 JIS, Unicodeなどでは外字は非推奨や禁止だったりしているかも
その他、Adobe が収集したもの、Font用のもの、住所、新聞、放送方面で拡張したものなどがある
絵文字は携帯電話用のものがUnicodeにもマッピングされ、増え続けている
符号化方式
UTF-8 Unicode系の8bit拡張系 全文字網羅
UTF-16 UTF-16LE UTF-16BE 16bit拡張系 全文字網羅
UCS-2 16bit限定 ISO 10646
UTF-32 UCS-4 ISO 10646 の全文字網羅
ISO-2022系
ISO-2022-JP JIS X 0201 X0211 X 0208 を合わせたりしたもの
ISO-2022-JP-1 / ISO-2022-JP-2 拡張したもの (非推奨)
中国語などもあるがもう利用されていない
Shift_JIS JISの範囲で X0211 X0201 X0208 を合わせたりしたもの
Windows-31J (CP932) NEC/IBMの拡張漢字を加えたりしたもの
EUC
EUC-JP Shift_JIS と似たようなものからWindows-31Jっぽい拡張の入ったものまでいろいろ?
EUC-KR ほぼ使わない
JIS X 0213 に対応したISO-2022, Shift_JIS, EUC-JPものも参考程度にはあるが規格化はされていない
正規化
結合文字
などがある