Unstructured

NLPモデル用のデータ準備では、品質を確保するためにクリーニングが必要になることが多い。Unstructuredライブラリには、出力のクリーンアップ、不要なコンテンツの削除、NLPモデルのパフォーマンス向上を支援するクリーニング機能が含まれている。このステップは、下流のアプリケーションに渡される前のデータの整合性を維持するために不可欠である。

https://docs.unstructured.io/open-source/core-functionality/cleaning

Extracting

この機能により、ドキュメント内の特定のエンティティを抽出することができる。関連する情報を識別し、分離するように設計されており、ユーザーはドキュメント内の最も関連性の高いデータに集中しやすくなる。

https://docs.unstructured.io/open-source/core-functionality/extracting

Staging

ステージング機能は、下流システムへの取り込みに備えてデータを準備するのに役立つ。この機能は、Destination Connectorsに置き換わる予定であることに注意されたい。

https://docs.unstructured.io/open-source/core-functionality/staging

Chunking (Unstructured)

https://docs.unstructured.io/open-source/core-functionality/chunking

この機能により、ドキュメント内の特定のエンティティを抽出することができる。

関連する情報を識別し、分離するように設計されており、ユーザーはドキュメント内の最も関連性の高いデータに集中しやすくなる。

Embedding (Unstructured)

https://docs.unstructured.io/open-source/core-functionality/embedding

https://zenn.dev/kun432/scraps/fa842dad2f8f97

試してみた