Unstructured
https://gyazo.com/1ebca5068ed0901751bbd6a5e32006c9
非構造化データを構造化するツール
動いている動画が多いので眺めるだけでイメージを掴みやすい
https://framerusercontent.com/assets/Z4uakokY2MmiEa1C4FkSeHS4cm0.mp4
GitHubで管理されているドキュメント群をpullしてunstructuredでチャンク化してMeilisearchに取り込んでOpenAIでベクトル化してーってやつ上手いこと動いてます
チャンク化が大事
chunking_strategy: by_title
max_characters: 1750
combine_under_n_chars: 500
overlap: 300
Unstructuredのパーティショニング機能により、未加工の非構造化文書から構造化コンテンツを抽出することができる。この機能は、未整理のデータを使用可能な形式に変換し、効率的なデータ処理と分析を支援するために不可欠である。
Cleaning
NLPモデル用のデータ準備では、品質を確保するためにクリーニングが必要になることが多い。Unstructuredライブラリには、出力のクリーンアップ、不要なコンテンツの削除、NLPモデルのパフォーマンス向上を支援するクリーニング機能が含まれている。このステップは、下流のアプリケーションに渡される前のデータの整合性を維持するために不可欠である。
Extracting
この機能により、ドキュメント内の特定のエンティティを抽出することができる。関連する情報を識別し、分離するように設計されており、ユーザーはドキュメント内の最も関連性の高いデータに集中しやすくなる。
Staging
ステージング機能は、下流システムへの取り込みに備えてデータを準備するのに役立つ。この機能は、Destination Connectorsに置き換わる予定であることに注意されたい。
この機能により、ドキュメント内の特定のエンティティを抽出することができる。
関連する情報を識別し、分離するように設計されており、ユーザーはドキュメント内の最も関連性の高いデータに集中しやすくなる。
試してみた