コピペで発生する謎の文字化け
手動で直す方法は突き止められてた
@sosoBOTpi すごく今さらですが、紫苑の書のpdfからコピペしたテキストのカタカナの化けるのを、機械的に直す方法が分かりました。U+3094〜U+30b4の文字を+000dして、U+30a1〜U+30c1にマッピングすると治りました。
PDF.js越しにテキスト抽出してマッピングを適用しようとしたが、抽出した段階でそもそも文字化けが解消されてて肩透かし では文字化けの原因は結局何だつたなのかといふ感じだけど別にもうええはといふ気持ち
取れるもん取れたし
でもたしかnode用のだと上手くいかなくてブラウザ用のを介して半手動で抽出した記憶
node用だと文字化けしたままなのかフォント情報が抜け落ちてたのかそんな感じの上手くいかなさ