Unicodeのはじまり
from Unicode
ISO/IEC 10646の標準化が始まった
ISO/IEC 2022との互換性を保つ方針
4バイトで1文字
2バイトのサブセット
UnicodeはXeroxのJoe BeckerとLee Collinsから開発が始まった
Early Years of Unicode
互換性は乏しい
2バイトで1文字
同じ目的で異なる案があるのは望ましくないため、ISO/IEC 10646とUnicodeは統合の流れになる
4バイトという建前は残しつつ、16ビット固定というUnicodeの設計を反映して下位2バイトの領域の中にすべての文字を配置した、実質的に2バイトの符号化文字集合として作成されたのです。 10646には4バイトコードとそのサブセットである2バイトコードとがありますが、後者がUnicodeそのもので、前者は後者に0000という上位2バイトをただ付けただけのものとなってしまいました。
/gosyujin-books/0059: 改訂新版 プログラマのための文字コード技術入門 00.pdf#628b74342c53d80000657efa
Unicodeの設計に寄せた
16ビット固定長として始まった
UTF-16がUnicodeの直径
しかし、2バイト = 16ビット = 65536文字では世界中の文字を収めるのは無理
16ビットを2つ並べて1文字を表せるか?
参考
/gosyujin-books/0060: 改訂新版 プログラマのための文字コード技術入門 00.pdf#628b74342c53d80000657f21