UTF-8
RFC 3629 UTF-8, a transformation format of ISO 10646
The Open GroupのFile System Safe UCS Transformation Format (FSS-UTF) が元
charsetにUnicodeのバージョン情報は含めない
FSS-UTF, FSS/UTF, UTF-2 などを経てUTF-8に落ち着く
UCS Transformation Format 8
Unicode Transformation Format-8
ISO 10646 で取り込まれ、Unicode側も更新された形?
ISO 10646も考慮されて32bitに対応していたがUnicode側から取り込まれた形?
Unicode では v1.1でFSS-UTFが追加されているがサロゲートペアで21bit化されるのはv2.0
RFC 2044 から RFC 2279, RFC 3629
UTF-16 UTF-32でバイト順を判定するために使われているBOMは逆順がないため不要 当初はISO 10646の32bit空間に対応していたが、21bit 10ffffまでの空間に制限されている
廃止 UTF-1, UTF-7
Code Unit 8-bit
RFC 3629 UTF-8
最大4オクテット
table:UTF-8
Char. number range UTF-8 octet sequence
(hexadecimal) (binary)
------------------------------ ---------------------------------------------
0000 0000-0000 007F 0xxxxxxx
0000 0080-0000 07FF 110xxxxx 10xxxxxx
0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
順?
1993-05-01 ISO/IEC 10646-1:1993
1994 RFC 1641 Using Unicode with MIME 1994 RFC 1642 UTF-7 (UTF-8 の別名としてUTF-FSSも記述あり)
1996-07 Unicode 2.0 サロゲートペア(UTF-16?)
1996 RFC 2044 UTF-8
1999 Unicode 3.0
2000 RFC 2781 UTF-16 Unicode 3.0 ISO 10646-1 Annex Q
2000 JIS X 0213:2000 多言語面利用
2001 Unicode 3.1 多言語面利用開始
2003 RFC 3629 UTF-8 を正規の範囲のみに制限 Unicode を元とする
2004 JIS X 0213:2004
2004-09 JDK 5.0
2006 Windows Vista