unstructured
https://scrapbox.io/files/6632490dca479b0023eb9f81.png
unstructuredライブラリは、PDF、HTML、Word文書などの画像やテキスト文書を取り込み、前処理するためのオープンソースなPythonライブラリー。
APIも用意されており、Difyからも使うことができる。 これら(unstructuredのモジュール関数とコネクタ)を使うことで、非構造化データを構造化された出力に効率的に変換できるようになる。
使用例
unstructuredでPDFをパースし、テーブル、画像、テキストといった要素を抽出できる。
外部資料
https://www.youtube.com/watch?v=S0iOmnx7Pts