アクティブ読書用データの作り方

アクティブ読書用データの作り方

方法

1. 画像データと文字データを取得する

kindle

kindleから文字列を取れれば、gyazoのOCRを経由する必要がなくなる

代わりに、ページ区切りに悩むことになったりする

(章|節)ごとに分けてるtakker.icon

一(章|節)につき1ページ

Epubor Ultimateでできそうなのだが、miyamonz.iconは面倒なのでpdf化して紙書籍と同じ方法でやってみた

後でもうちょっと調べよう

紙書籍

1. scanして画像データを得る

ScanSnapで全部scanしてpdfか画像にする

文字情報を得たいだけならこれが一番楽

pros

非破壊scanできる

スマホ以外に機材がいらない

文字認識精度も十分高い

cons

ScanSnapよりは遅い

図表が歪む

影が写る

指とか周囲のものが写る

2. 文字データを取得する

Gyazo ProのOCRやTesseract、ScanSnapの文字認識機能などのOCR機能を使って取得する

ここをうまく作り込むとかなり楽takker.icon

おすすめはtakker.icon

章・節ごとに1ページに事前にまとめる

章・節の目次情報と対応するページ範囲は予め作っておく

書籍は章・節が情報の塊の単位なので、その単位で予め作っておくとアクティブ読書しやすい

章ページには節へのリンクを書き並べておく

予めOCRテキストを整形しておく

句読点の統一

読点で改行させる

全角英数字の変換

etc.

アクティブ読書するときの労力が減る

Book2Scrapboxを使えば良い