Unstructured
https://unstructured.io/
We get your data LLM-ready
IMO:様々なデータソースからテキストデータを読み取り、LLMに入力できるようにする
Core Functionality
Partitioning (unstructured)
Cleaning
Extracting
Staging
Chunking
Embedding
MLサービス用の自然言語データの前処理ツール Unstructured を試す
HTMLファイルからテキストを取り出す例