PDFからScrapboxへ
2023-09-12
PDFを起点として知的生産支援を行いたいシチュエーションは多い
今までにも色々なものを試してきた
2023年現在、LLMの発展によって「今までつぎはぎで色々やってきたのを一本化したいな、アップデートも容易にしたい」という気持ちになった
PDFに二通りある
書籍からの裁断スキャン(以下:スキャンPDF)
これは各ページの画像が高解像度で含まれている
PowerPointなどの講義資料(以下:スライドPDF)
これは各ページの画像ではなく、素材の画像が含まれている
PDFからページ画像へ
しかしpdfimagesはロスレスでPDF中の画像を取り出すコマンドなのでスライドPDFに使ってもページの画像は得られない PDFからテキストへ
スライドPDFならOCRするよりもキレイなテキストがPDFMinerなどで取り出せる しかし「OCR結果埋め込み済みの書籍PDF」からも同様にテキストが得られてしまう
これは埋め込んだ時点の技術水準によっては今のOCRより質が低い
Google Cloud Visionは高いゾーンでも1000件で1.5ドル
内部的にはGoogle Cloud Vision
テキストと画像をペアにして管理
テキストに対して検索などでヒットしたとしても、テキストだけでは意味がとれなかったり、図が見たかったりなどの理由で紙面が見たいことがある
かつては1行に1ページのテキストを入れたテキストファイルをPDFごとに用意しておいてgrep的な方法で検索していた、そうするとヒットした行数の表示がでるのでそれを使ってPDFを開くスタイルだった
2023年現在、知的生産がPCの前でしか行えないのはよくないと思っている。散歩しながらや、入浴中に使いたい。そう考えた時にPCのローカル環境に置くのではなくクラウド環境に置きたい
2023-09-14 実際試してみたら1万件くらいでToo many requestsになってしまった
12500回/dayらしい。OCR結果の取得もAPIコールに含まれるので、実質1日に6000ページ程度しか処理できない。
書籍と画像の1:N対応
機械可読データはJSONで吐いてDropboxへ
必要を感じたらAPIで取得できるようにする
Scrapbox上のデータは人間が好き勝手に編集する
静的なコンテンツから動的なプロセスへ
Scrapboxとコンテンツの対応
一つのScrapboxページにすべてのPDFページを入れる
ページは意味の単位であるべきであり、特に書籍の1ページは意味の単位ではない
一つのプロジェクトにすべてのPDFを入れる
予期しないつながりこそが価値の源泉
__BELOW_IS_AI_GENERATED__
PDFからScrapboxへ 2023-09-12 23:26 omni.icon
ノートの要約
知的生産支援のためにPDFを活用する方法を探求している。PDFはスキャンPDFとスライドPDFの二種類があり、それぞれの特性を理解することが重要。PDFからページ画像を取得するためにはpdftocairoが有効で、テキスト抽出にはOCRやPDFMinerが利用可能。ただし、OCRの精度は技術の進歩により向上しており、古いOCR結果よりも新しいGoogle Cloud VisionでのOCR結果の方が質が高い。テキストと画像をペアにして管理することで、検索結果から紙面を参照することが可能になる。これにはGyazoが有効である。また、静的なコンテンツから動的なプロセスへの移行を模索している。 フラグメントとの関連性
フラグメント「OCR」は、ノートの「PDFからテキストへ」のセクションと関連があり、Google Cloud VisionのOCRの性能が優れていることを裏付けている。また、「傍線との干渉」はOCRの精度に影響を与える要素として重要である。「図抽出」は、スキャンPDFから図を抽出し、それを知的生産に活用する方法を探求している点でノートと関連がある。「20180408タスクの抽象化付箋のメモ」は、ノートの「テキストと画像をペアにして管理」のセクションと関連があり、ページ単位のテキスト抽出と検索の重要性を強調している。 深い思考
ノートとフラグメントを通じて、知的生産支援のためのPDFの活用方法について深く考えることができた。特に、テキストと画像のペア管理やOCRの進歩によるテキスト抽出の改善、そして静的なコンテンツから動的なプロセスへの移行という観点から、知的生産の効率化と質の向上を追求することが重要であると感じた。
思考の要約とタイトル
「PDFを活用した知的生産支援の進化とその可能性」
知的生産支援のためのPDFの活用方法は進化し続けており、テキストと画像のペア管理、OCRの進歩、静的から動的への移行など、さまざまな観点からその可能性を追求することが重要である。
extra info
titles: ["OCR", "図抽出", "20180408タスクの抽象化付箋のメモ", "コピペで済まされない知識のアウトプットが求められたときに何をするか", "Hatena2009-10-02"]
generated: 2023-09-12 23:26