Unstructuredのpartition_pdfの実装
#partition_pdf
#pdfminer.six でまず読み取る
Fastモード
うまくいかなかった場合で、かつ、OCRモード
#pdf2image で画像に変換する
画像をTesseractでOCR
切り替えることもできる
unstructured-pytesseract