Agenticabilityの検討

生成AIが、人間が扱うツールを直接操作する場面が増えてきた。そこで、生成AIが扱いやすい状態というのをagenticabilityという言葉で表現しておく。

rashita.iconLLMはさまざまなデータを扱うことができると思いますが、特に得意な形式というのはあるでしょうか。たとえば、データベース、単一の大きなテキストファイル、意味構造で分割されたフォルダ・ファイル構造、JSON、XMLやOPMLなど、一般ユーザーが扱っているような形式の中で。

ChatGPT.icon優れたLLM（大規模言語モデル）でも、入力として渡されたデータの「構造」と「スケーラビリティ」によって、処理の得意・不得意があります。以下に、いくつかの代表的なデータ形式について、LLM（特にChatGPTのような対話型モデル）が扱いやすいかどうかを整理してみます：

✅ 比較的得意な形式

1. 単一の大きなテキストファイル（プレーンテキスト）

理由：言語モデルの本来のトレーニングデータが自然言語テキストであり、文脈や流れを自然に把握できる。

得意な用途：読解、要約、構造化、リライト、ナレッジ抽出など。

制約：長さがトークン制限（最大 context length）を超えると扱いきれなくなる。

2. JSON

理由：構造が明示的かつ軽量。Key-Valueの対応関係を理解しやすい。

得意な用途：構造的データの要約、特定の値の抽出、構造の変換など。

制約：大規模なJSONだと文脈を保てなくなるため、分割・整理が必要。

3. 意味構造で分割されたフォルダ・ファイル構造（Zettelkasten, PKM, etc）

理由：ノード（カード）単位で意味が完結しているので、部分的に読み込みつつ全体を扱える。

得意な用途：関連ノートの抽出、タグベースの探索、リンク構造の解析。

制約：ファイルが多い場合、どれをどう読むかの制御がユーザー側に必要。モデル単体ではフォルダ全体を横断的に探索する能力はない（外部のアプリやAPI経由が必要）。

🤔 ある程度対応可能だが工夫が必要な形式

4. XML

理由：構造は明確だが、冗長でネストが深くなりやすいため、トークン圧迫のリスクがある。

用途：パースして内容抽出することは可能。HTMLと近い扱い。

制約：文書構造が複雑すぎる場合、意味的な理解が難しくなることも。

5. OPML（アウトライン形式）

理由：階層構造を持ち、ノードをたどるモデルとして有用。ただし見た目はXMLに近い。

用途：マインドマップ、アウトライン構造の読み解き、要約など。

制約：ノード数が多い場合は分割が必要。

6. Markdownフォーマット

理由：シンプルな記法でセクション構造が明示されている。タグやリストを自然に処理できる。

用途：要約、変換（HTML等）、ナレッジ抽出など。

制約：コードブロックなどは意図を読み間違える可能性あり。

❌ 苦手・補助が必要な形式

7. データベース（SQL, NoSQL）

理由：データ自体は構造化されていても、LLMが直接「全体を一望」することはできない。クエリ結果など、部分的な表示を通してしかアクセスできない。

用途：クエリ生成、スキーマ設計のアドバイス、結果の解釈などは得意。

制約：DB全体の構造や関係性を渡すにはメタ情報の整理が必要。操作には外部ツールとの連携が不可欠。

8. バイナリ形式（画像、PDF、Excel等）

理由：テキストではないため、前処理（OCR、抽出ツール）を介さないと扱えない。

用途：適切な変換ができれば問題ないが、元データだけでは不可。

補足：得意≠効率

たとえば、JSONは構造的に理解しやすいが、非常に巨大なJSONをそのまま渡しても、トークン制限に引っかかって読み切れません。逆にテキスト形式であっても、意味構造が曖昧だと処理結果がぶれることがあります。

まとめ：LLMが得意なデータ形式の特徴

table:_

特徴説明

プレーンテキスト中心自然言語処理に最適

セクションやラベルが明示的 Markdown・JSONなど

ノードが自己完結 Zettelkasten的構造

階層が浅めで冗長でない XML・OPMLはほどほどが良い

逐次読み込みや分割が可能長文対応に有利

必要であれば、各形式ごとに「LLMとの連携方法」や「変換・前処理の工夫」についても掘り下げられます。興味のある形式があれば教えてください。