OCRを使って書き起こす
#著作権・版権切れの本を書き起こそう
だれかがOCR使わないの? と仰っていた
Google OCR を使えば作業が飛躍的に上がるかもしれない。
試みにやってみました↓結果
https://gyazo.com/2256b24c6e909445487b839b3e13a018
(ゴーゴリの小説です)
これはどうなんだろう、こうして粗くできた文章を修正していくのと、一から打ち込んでいくのとどちらが早いだろうか?
使うPDFの状態によっては悪くないかもしれない……
――――――――
そこでこんなソフトを発見
SepPDF!!
PDFを一枚ずつ分割できる(無料)
どちらにしろ2MB以上のファイルはOCRできないので、
1. まずこれでPDFを一枚ごとに分割☞自動
2. 一枚づつOCRで粗くテキスト化☞ほぼ自動
3. 1と2を照らし合わせて校正していく☞手動
このような流れを考えた
ためしに時間があるときやってみよう……
Gyazo proにもOCR機能がある。
gyazo経由のocrで雛形をつくる
gyazo経由のocrをお試ししてみる
Adobe Scanで写真をPDF化したのち、コピペするという方法もある。
https://forest.watch.impress.co.jp/docs/bookwatch/digipub/1090529.html
底本の状態がいい場合は、スキャンして取り込み、OCR(光学的文字認識)を利用する場合もあるという。ただ、いちから手入力だと作品の内容を追いかけられるので入力作業も楽しめるけど、OCRは機械的な作業なので地道すぎて病んでくるそうだ。