EPUBをreStructuredTextに変換する君の紹介
動機
某書 3rd Edition の翻訳を開始しました
英語原稿を用意して、Sphinxでビルドできる状態にしようと思いました
元原稿はもらえてません
やりたいこと
第1版の時: PDF2Text というコマンドラインツールで抜き出してがんばって整形
第2版の時: EPUBをzip展開して中身のHTMLをpandocか何かでreSTに変換 今回: 自作してみた
使用したライブラリ
それぞれ、ググって見つけたので今回初めて触りました
EPUBの構造を読み書きするライブラリ
コード
デモ
https://gyazo.com/c0786b2c15607db82b9b66c36b31ff9a
感想
EPUBの構造が自由すぎて、構造をキレイに取り出すのが難しい
目次の階層構造は章節番号を持ってない?(今のところ取り出せていない)
Q&A
Q. このコードはPyPIには置かないですか?
A. shimizukawa.icon PyPIに公開することで、解決できないIssueが大量に発生することが予想されるので、置きません
A. EPUBのフォーマットが自由すぎて、EPUBファイルに合わせてコードの調整が必要(EPUB仕様を追いかけるのも大変なので...
A. 今の m2r はreSTに変換するとテーブルが壊れるという問題もあります