unstructured
https://scrapbox.io/files/6632490dca479b0023eb9f81.png
https://unstructured.io/
unstructuredライブラリは、PDF、HTML、Word文書などの画像やテキスト文書を取り込み、前処理するためのオープンソースなPythonライブラリー。
APIも用意されており、Difyからも使うことができる。
https://dify.ai/blog/dify-update-0-3-34
これら(unstructuredのモジュール関数とコネクタ)を使うことで、非構造化データを構造化された出力に効率的に変換できるようになる。
使用例
unstructuredでPDFをパースし、テーブル、画像、テキストといった要素を抽出できる。
GitHub: https://github.com/Unstructured-IO/unstructured
外部資料
https://www.youtube.com/watch?v=S0iOmnx7Pts