文字コードは闇
闇要素
全世界の文字を16bitで表せると思いこんだ者たち
中国と日本と韓国で使われてる漢字とかいうやつは全部同じ文字だよねっ!(^^)
CJK統合漢字
grep 毛沢東
サロゲートペア
絵文字
日本の携帯電話が発祥
しかし、携帯電話会社各社は、規格の標準化にまるでやる気を見せなかった
これは囲い込みによるユーザー体験の低下だなbsahd.icon
結局、仕様を取りまとめて提案したのは Google
今これの闇をすごく感じているwogikaze.icon
https://gyazo.com/8bddf659f122671158de4b0cd0779967
ワケガワカラナイヨ
全部黄色じゃだめだったのかねMijinko_SD.icon
全部黄色だと白人と黒人が嫌がりそう基素.iconbsahd.icon
間を取って青色にしようwho.icon
誰が得するんだろうか
絵文字の闇というページも必要かな suto3.icon
どれくらい闇かはこの記事を読んでみるとわかる
C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita
Notaさんのところでも文字コードと奮闘していたみたい
/nota-private-sample/クメール文字が書けない
文字コードに似たようなことを書いてあったことに今更気づいたtakker.icon
まあなんかうまいことやってmergeして下さいな(丸投げ)
文字コードは無理。無理ってわかった。うれしい https://t.co/MwJFVdsSOf
@ayanami_rei_T May 18, 2021
文字コードの闇というより、ユニコードの闇だね、こりゃsuto3.iconerniogi.icon
他にも
漢字の闇
日本語文字コードの闇
機種依存文字の闇
外字の闇
半角カタカナの闇
JISの闇
ShiftJISの闇
EUC-JPの闇
Windows-31Jの闇
CIDマップの闇
など、いろいろ地獄があります
ShiftJISの闇はもう存在しないわけだし、事態は良い方向にきてると思います 増井俊之.icon
文字コード自動判別を成功させるためには文頭に「美乳」と書けば良いという話がありました 増井俊之.icon
「美」という字は ISO-2022-JP(JIS)、EUC-JP、Shift_JIS の判別に都合がよかったsuto3.icon
「乳」のほうは理由を知らない
ユニコードにはこの技は効果がない
Unicode 版美乳テーブルを探せ
北朝鮮の文字コード(KPS 9566)には、金日成、金正日、金正恩が専用の文字コードとして割り当てられている
えぇ……hata6502.icontakker.iconyosider.icon
1文字扱い?yosider.icon
mjd 増井俊之.icon
日本の年号みたいな感じなのかな?Mijinko_SD.icon
太字になっているみたいな話が出来てきた、ひえ
ワロタはるひ.icon
結局今のベストはなんなんですか基素.icon
bsahd.icon
グローバル社会ならUTF-8
https://gyazo.com/9a549ba777d090338b87c6612e88de9b
Shift_JISもEUC_JPもISO-2022-JPもオワコン
Scrapboxもutf-8
最近のLinuxディストリビューションだとデフォルト
メリット
1ファイル内にほぼすべての地域で使われている文字が入れられる
デメリットもある
CJK漢字など多くの文字が3バイト
そのため、2バイトの文字コードに比べて容量が1.5倍ほどになる
絵文字や多言語を使わず、容量をバイト単位で切り詰める必要がある場合はShift_JIS
バッチファイルはShift_JIS