CID問題 - 西尾泰和の外部脳

CID問題

pipでPDFMinerをインストールして日本語PDFからテキスト抽出をしたら以下のようになってしまった問題。

私(cid:888)、知的生産術(cid:887)良(cid:845)参考書(cid:853)欲(cid:864)(cid:845)(cid:880)(cid:866)。人(cid:884)知的生産術(cid:923)教(cid:849)(cid:916)

-----

調査過程のメモ

2014年

CMapを作り直す必要があるという指摘

2015年

ToUnicode mapに関しての話

ToUnicode mapに関しての話

埋め込まれたフォントを抜き出せるか？という議論

二点しんにょうなどがCIDに置き換えられたという報告

2018

コマンドラインでは無くスクリプト内からインポートして使う例

こちらも僕の環境と同様にひらがながCIDになっている