Unstructured
https://gyazo.com/1ebca5068ed0901751bbd6a5e32006c9
非構造化データを構造化するツール
様々なデータをLLMが扱いやすいデータ構造に変換できる
website
動いている動画が多いので眺めるだけでイメージを掴みやすい
github
https://framerusercontent.com/assets/Z4uakokY2MmiEa1C4FkSeHS4cm0.mp4
@miiton (@MIITON)
GitHubで管理されているドキュメント群をpullしてunstructuredでチャンク化してMeilisearchに取り込んでOpenAIでベクトル化してーってやつ上手いこと動いてます
チャンク化が大事
chunking_strategy: by_title
max_characters: 1750
combine_under_n_chars: 500
overlap: 300
https://docs.unstructured.io/open-source/core-functionality/overview
Partitioning (Unstructured)
Unstructuredのパーティショニング機能により、未加工の非構造化文書から構造化コンテンツを抽出することができる。この機能は、未整理のデータを使用可能な形式に変換し、効率的なデータ処理と分析を支援するために不可欠である。
https://docs.unstructured.io/open-source/core-functionality/partitioning
Cleaning
NLPモデル用のデータ準備では、品質を確保するためにクリーニングが必要になることが多い。Unstructuredライブラリには、出力のクリーンアップ、不要なコンテンツの削除、NLPモデルのパフォーマンス向上を支援するクリーニング機能が含まれている。このステップは、下流のアプリケーションに渡される前のデータの整合性を維持するために不可欠である。
https://docs.unstructured.io/open-source/core-functionality/cleaning
Extracting
この機能により、ドキュメント内の特定のエンティティを抽出することができる。関連する情報を識別し、分離するように設計されており、ユーザーはドキュメント内の最も関連性の高いデータに集中しやすくなる。
https://docs.unstructured.io/open-source/core-functionality/extracting
Staging
ステージング機能は、下流システムへの取り込みに備えてデータを準備するのに役立つ。この機能は、Destination Connectorsに置き換わる予定であることに注意されたい。
https://docs.unstructured.io/open-source/core-functionality/staging
Chunking (Unstructured)
https://docs.unstructured.io/open-source/core-functionality/chunking
この機能により、ドキュメント内の特定のエンティティを抽出することができる。
関連する情報を識別し、分離するように設計されており、ユーザーはドキュメント内の最も関連性の高いデータに集中しやすくなる。
Embedding (Unstructured)
https://docs.unstructured.io/open-source/core-functionality/embedding
https://zenn.dev/kun432/scraps/fa842dad2f8f97
試してみた