ユニコードの闇
Unicode で全て解決、とは ならなかった
闇要素
UTF-8 に BOM(byte order mark)を付けるか付けないか
BOM を付けないほうをUTF-8Nという
そんなこと聞いたことありませんbsahd.icon
BOM を付けたUTF-8 のスクリプトファイルでは、処理系によっては実行できないことがある
処理系がBOM をうまく扱えないため、エラーになる
UTF-8-MAC(UTF-8-HFS)
UTF-8-MACでは、「パ」のように濁点・半濁点がついた文字が、「ハ」+「半濁点」という形で保存されている
「パ」1文字で保存するのをNFC(Normalization Form Canonical Composition)、
「ハ」+「半濁点」の2文字で保存するのをNFD(Normalization Form Canonical Decomposition)という
/yuta25/UTF-8-MAC問題
/forum-jp/ページタイトルのUTF-8-MACをUTF-8にしてほしい
/shokai/Macの濁点問題
これウザいよねー 増井俊之.icon
jsの場合String.prototype.normalize()でできる
初期に、すべての文字が16bitに収まると考えていたこと
サロゲートペア
UTF-16がなくなればサロゲートペア分解放できるのに...ロボカス.icon
JSの文字列処理関数とか基本的にUTF-16のコード単位で扱ってる
かと言ってUTF-32は容量がデカい
半角カタカナ、全角英数字を互換性上の理由で残してしまった
異体字を区別するのにIVSというものが必要で、一般的なフォントはほとんど対応していない