partition_pdf
The default strategy auto will determine when a page can be extracted using fast mode, otherwise it will fall back to hi_res.
RAG用のデータ整備のために生まれただけあり、textはすばらしい(下の動画参照)
metadataのtext_as_htmlに日本語が入ってこないらしい(TODO ソース確認)
https://www.youtube.com/watch?v=E-tupjji22U