『ユニコード戦記』
小林達夫
ルビを巡る攻防
ルビ = rubyの名前の由来 = イギリスにおける5.5pt活字の名前がルビー
参考:19世紀後半におけるイギリスでの文字サイズ名称として、他にエメラルド(6.5ポイント)、パール(5ポイント)、ダイアモンド(4.5ポイント)などが存在した。出典:屋内 (2002, p. 120)。
W3Cにおいても <ruby> が提案されたのは、東大で学ばれたドイツ人がきっかけ
文字コードは文字装飾について扱うべきか否か
日本語を知らない人にとっては、タイアクリティックマークのようなものとして、文字の一部として扱うことが出来る
Unicodeにおけるコードポイント
U+FFF9 — Interlinear annotation anchor - 親文字開始指定文字
U+FFFA — Interlinear annotation separator - ルビ開始指定文字
U+FFFB — Interlinear annotation terminator - ルビ終止指定文字
結合文字
プリコンポジションか、ダイナミックコンポジションかを巡る政治
e.g. 「ト゚」 = ト + 半濁音
結合文字としての半濁音と、それ自体独立した文字としての半濁音とに別のコードポイントが割り当てられている。
cmap - charater map
BMP = Basic Multilingual Plane
Unicode BMP (U+0000〜U+FFFF) 用。BMP は、「Basic Multilingual Plane (基本多言語面)」です。よく使う基本的な文字が含まれている領域です。
2バイトの中で表現できる。 65535
TODO
cmapから「ト゚」のような結合文字を抽出刷る方法
Pythonのchr などでは、結合文字をエンコード出来ない