文字列のテスト用データ
何をテストするか?
チェックを通過するかどうか
「1文字」の範囲がどうなっているか
どんなフォントで表示されるか
どんなコードとして取得されるか
ASCII文字列 U+0020~U+007E まで
code:txt
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ\^_`abcdefghijklmnopqrstuvwxyz{|}~
中華フォント判定用文字列
code:txt
返刃直海角骨入
返は特に変化が大きいので見分けやすい。
参考: https://heistak.github.io/your-code-displays-japanese-wrong/
サロゲートペア判定用文字列(JIS2004)
code:txt
𠀋𡈽𡌛𡑮𡢽𠮟𡚴𡸴𣇄𣗄𣜿𣝣𣳾𤟱𥒎𥔎𥝱𥧄𥶡𦫿𦹀𧃴𧚄𨉷𨏍𪆐𠂉𠂢𠂤𠆢𠈓𠌫𠎁𠍱𠏹𠑊𠔉𠗖𠘨𠝏
𠠇𠠺𠢹𠥼𠦝𠫓𠬝𠵅𠷡𠺕𠹭𠹤𠽟𡈁𡉕𡉻𡉴𡋤𡋗𡋽𡌶𡍄𡏄𡑭𡗗𦰩𡙇𡜆𡝂𡧃𡱖𡴭𡵅𡵸𡵢𡶡𡶜𡶒𡶷𡷠
𡸳𡼞𡽶𡿺𢅻𢌞𢎭𢛳𢡛𢢫𢦏𢪸𢭏𢭐𢭆𢰝𢮦𢰤𢷡𣇃𣇵𣆶𣍲𣏓𣏒𣏐𣏤𣏕𣏚𣏟𣑊𣑑𣑋𣑥𣓤𣕚𣖔𣘹𣙇𣘸
𣘺𣜜𣜌𣝤𣟿𣟧𣠤𣠽𣪘𣱿𣴀𣵀𣷺𣷹𣷓𣽾𤂖𤄃𤇆𤇾𤎼𤘩𤚥𤢖𤩍𤭖𤭯𤰖𤴔𤸎𤸷𤹪𤺋𥁊𥁕𥄢𥆩𥇥𥇍𥈞
𥉌𥐮𥓙𥖧𥞩𥞴𥧔𥫤𥫣𥫱𥮲𥱋𥱤𥸮𥹖𥹥𥹢𥻘𥻂𥻨𥼣𥽜𥿠𥿔𦀌𥿻𦀗𦁠𦃭𦉰𦊆𦍌𣴎𦐂𦙾𦚰𦜝𦣝𦣪𦥑
𦥯𦧝𦨞𦩘𦪌𦪷𦱳𦳝𦹥𦾔𦿸𦿶𦿷𧄍𧄹𧏛𧏚𧏾𧐐𧑉𧘕𧘔𧘱𧚓𧜎𧜣𧝒𧦅𧪄𧮳𧮾𧯇𧲸𧶠𧸐𧾷𨂊𨂻𨊂𨋳
𨐌𨑕𨕫𨗈𨗉𨛗𨛺𨥉𨥆𨥫𨦇𨦈𨦺𨦻𨨞𨨩𨩱𨩃𨪙𨫍𨫤𨫝𨯁𨯯𨴐𨵱𨷻𨸟𨸶𨺉𨻫𨼲𨿸𩊠𩊱𩒐𩗏𩙿𩛰𩜙
𩝐𩣆𩩲𩷛𩸽𩸕𩺊𩹉𩻄𩻩𩻛𩿎𪀯𪀚𪃹𪂂𢈘𪎌𪐷𪗱𪘂𪘚𪚲
emoji(絵文字)
https://en.wikipedia.org/wiki/Emoji
https://en.wikipedia.org/wiki/Miscellaneous_Symbols_and_Pictographs
emoji、非サロゲートペア、非合成
code:txt
⌛ U+231B
emoji、サロゲートペア、非合成
code:txt
🀄 U+1F003
麻雀牌の中
絵文字肌色修飾
code:txt
👦 U+1F466
顔の後に肌色修飾を付けると肌の色が変わる
👦🏽 U+1F466 U+1F3FD
👦🏿 U+1F466 U+1F3FF
絵文字の合成
code:txt
😵💫 U+1F635 U+1F4AB
ZWJ(U+200D)を挟むと合成になる
😵‍💫 U+1F635 U+200D U+1F4AB
ZWJによる絵文字には、地獄のような組合せがある… (表示を考えなければ U+200D があれば結合でよい)
https://0g0.org/topic/zero-width-joiner/
異体字セレクタ(IVS)
異体字セレクタは常に手前の1文字に結合される。
対応フォントでないと違いが分からない。(Windows 標準では「游明朝」(Yu Mincho)などがIVS対応。「MS明朝」(MS Mincho)はIVS非対応。)
code:txt
辻 U+8FBB (しんにょうの点が2つ)
辻󠄀 U+8FBB U+E0100󠄀󠄀 (しんにょうの点が1つ)
結合文字󠄀
code:txt
ガ U+30AC
ガ U+30AB U+3099
RTL文字列
書字方向が「右から左」(Right To Left)
code:txt
アラビア語: مرحبا بالعالم (Marhaban bil'alam!)
ヘブライ語: שלום, עולם (Shalom, olam!)
ペルシャ語(ファルシ語): سلام دنیا (Salām donyā!)
ウルドゥー語: ہیلو ، دنیا (Hello, dunyā!)
アラム語: ܫܠܡܐ ܥܠܡܐ (Shlama ʿalma!)
シリア語: ܠܡܐ ܥܠܡܐ! (Shlomo ʿolmo!)
イディッシュ語: העלא וועלט (Helo velt!)
クルド語(ソラニー方言): سڵاو جیهان (Silav cîhan!)
パシュトー語: سلام نړۍ (Salām naṛəy!)
ダリー語: سلام جهان (Salām jahān!)
シンド語: هيلو، دنيا (Hello, dunyā!)
参考
とほほの文字コード入門 https://www.tohoho-web.com/ex/charset.html