Unicodeのはじまり

from Unicode

ISO/IEC 10646の標準化が始まった

ISO/IEC 2022との互換性を保つ方針

4バイトで1文字

2バイトのサブセット

UnicodeはXeroxのJoe BeckerとLee Collinsから開発が始まった

Early Years of Unicode

互換性は乏しい

2バイトで1文字

同じ目的で異なる案があるのは望ましくないため、ISO/IEC 10646とUnicodeは統合の流れになる

4バイトという建前は残しつつ、16ビット固定というUnicodeの設計を反映して下位2バイトの領域の中にすべての文字を配置した、実質的に2バイトの符号化文字集合として作成されたのです。 10646には4バイトコードとそのサブセットである2バイトコードとがありますが､後者がUnicodeそのもので、前者は後者に0000という上位2バイトをただ付けただけのものとなってしまいました。

/gosyujin-books/0059: 改訂新版プログラマのための文字コード技術入門 00.pdf#628b74342c53d80000657efa

Unicodeの設計に寄せた

16ビット固定長として始まった

UTF-16がUnicodeの直径

しかし、2バイト = 16ビット = 65536文字では世界中の文字を収めるのは無理

16ビットを2つ並べて1文字を表せるか？

参考

/gosyujin-books/0060: 改訂新版プログラマのための文字コード技術入門 00.pdf#628b74342c53d80000657f21