著作権・版権切れの本を書き起こそう
/prarpla/書き起こし隊で目下進行中2022/03/26アープラノートに移行
現在作業中:ドンキ起こし、ニーチェ起こし、『魔の山』佐藤晃一訳
#企画 #書き起こし隊
青空文庫にない?それなら自分たちでつくってしまおう!
国立国会図書館オンラインなどでは、著作権の切れた書籍のスキャンデータをインターネット上で公開しています。
青空文庫などで文字データ化されているものもありますが、多くは画像のままです。
そこで、テキストに書き起こしてみようという計画です。アレクセイ.icon
手順(暫定)
1. 見開き一枚ごとに分割。
2. OCRで粗く読み込む。
Scrapboxに貼り付けた画像がGyazoに入る設定ならGyazo側でOCRまで掛けてくれるからScrapboxに画像を貼っていくと一石二鳥な気がしますnishio.icon
え! なんとそうでしたか。試してみます、教えていただきありがとうございます!→gyazo経由のocrをお試ししてみる
3. 手動で修正。
現在の方法(2022/03/27)
1. 国立国会図書館デジタルコレクションで書き起こしたい書物を探す
たとえばドン・キホーテ. 上巻(第1編) - 国立国会図書館デジタルコレクションなど
2. 画像にしたいページまで移動して、上部のJPEG表示アイコンをクリック
3. 倍率を100%にして「表示」をクリック
4. 画像化されたページが出て来るので、右クリック→画像をコピーを選択
5. gyazoと連携済みの任意のScrapboxプロジェクトで、新規ページを開き、適当なタイトルをつくる
6. 新たに作ったページでCtrl+Vを押して画像を貼り付ける
7. 貼り付けた画像をクリックしてgyazoに移動する
8. proプランまたはお試し体験中にしていると、ocrで文章が読み込まれる
9. 読み込まれた文章をコピペして、画像の下に置く
10. コピペした文章と画像(デジタルコレクションでもページに貼った画像でも好きなほう)を比較して修正していく。
11. 行程2~10を繰返す
メリット
過去の著作に触れられる。
多くの人が古典の名作などを手軽に読めるようになる。
黙々とする作業が楽しい。
多人数で協力すれば効率が上がる。
デメリット
手間がかかる。
報酬は達成感のみ。
書き起こし隊
絶賛募集中
アレクセイ.icon
なるせ.iconつまり画像情報を文字入力すればいいってことですか?
そうです!アレクセイ.icon
書き起こしたい作品リスト
皆さんもぜひ挙げてみてください。すでにテキストデータが無料公開されていたりしたら教えてください。
ゴンチャロフ『オブローモフ』山内封介訳アレクセイ.icon
セルバンテス『ドン・キホーテ』島村抱月・片上伸共訳アレクセイ.icon(改訳・編集版が古典教養文庫から有料でkindleにあり)
ドンキ起こし中
ドストエフスキー『悪霊』森田草平訳アレクセイ.icon
ニーチェ全集5巻(ツァラトゥストラ)生田長江訳アレクセイ.iconnishio.icon
ニーチェ起こし中
バルザック『セラフィタ』新城和一訳アレクセイ.icon
ゲーテ『ヴィルヘルム・マイスター』森田草平訳アレクセイ.icon
『荘子』吉田義成訳 しゅれでぃんがー.icon
質問
書き起こし隊Q&A