Unicodeにマッピングされていない文字

Shift-JISやJIS (ISO-2022-JP) には、Unicodeマッピング外文字というものがある。

化るのは例えば、iso-2022-jpで書かれた洲﨑神社の2文字目。

﨑がUnicodeにない、という意味ではないのがやっかいなところ

つまり、マッピングを実装すれば変換できる

どの文字がマッピング外か、以下に分かりやすくまとまっている

水色エリアはJIS X 0208 (1990) to Unicode 漢字コード表に存在しないコードです

水色エリアはJIS X 0208 (1990) to Unicode 漢字コード表に存在しないコードです

実際にPython3で書くとこうなる

code:python

>> suzaki = b'''\x1b$B='yu?@<R\x1b(B'''

>> suzaki.decode('iso2022jp')

Traceback (most recent call last):

File "<stdin>", line 1, in <module>

UnicodeDecodeError: 'iso2022_jp' codec can't decode bytes in position 5-6: illegal multibyte sequence

>> suzaki.decode('iso2022jp', errors='replace')

'洲�神社'

参考

4F70 のあたり