文字コード
符号化文字集合
ASCII
初期の文字コード
7bit
100文字弱
Shift-JIS
EUC
ASCIIとJIS X 0208の組み合わせ
Unicode
国際文字コード
世界中の文字を扱えるようにしようとした
UTF-8
eUTF-8
UTF-16
Latin-1
JIS
ISO-2022-JP
UTF-7
過去の資産との互換性を考えないといけない
code point
文字コードの適合性
文字コードの規格と、その実装がどれぐらい整合しているか
実装に依っては規格と微妙に異なってたりするのねmrsekut.icon
文字コードが複雑になる理由
『プログラマのための文字コード技術入門』 1.5~
過去の遺産の積み重ね
文字そのもののが複雑
e.g. 漢字多すぎ
e.g. アラビア文字で同じ文字が文脈によって形を変える
#??
文字コードが乱立する経緯、歴史、動機を知りたい
各アプリケーションがどういう理由でその文字コードを選択するのか
e.g. このCSVをExcelで開くと文字化けする!といったときに、なぜExcelはその文字コードのみをサポートしようとしたのか
古いやつが能力不足なのはわかるが、モダンなやつどうしでもメリデメがあるのか
なぜ標準化、統一化されないのか
しようと頑張っているのはそらそうだが、なぜ実際そうなっていないのか
https://muuumin.net/char-encoding/
julia
https://qiita.com/bon127/items/491b25e90208188dafbd
わかりやすい
code unitとcode point
サロゲートペア
絵文字シーケンス
https://heartbeats.jp/hbblog/2021/05/chardet.html
https://gihyo.jp/book/pickup/2019/0006
https://heppoko.hatenadiary.jp/entry/2018/04/28/184559
https://gihyo.jp/book/2019/978-4-297-10291-3
https://milestone-of-se.nesuke.com/nw-basic/as-nw-engineer/charset-summary/
https://japan.cnet.com/sp/column_emojipandora/
絵文字
https://employment.en-japan.com/engineerhub/entry/2020/04/28/103000
https://eh-career.com/engineerhub/entry/2020/04/28/103000
『プログラマのための文字コード技術入門』