20260521 『図解まるわかり AI エージェントのしくみ』を読んだので紹介

https://www.shoeisha.co.jp/book/detail/9784798193526

どういう本？

AI エージェントの概要的な説明と、実際に導入する際の進め方などが書かれている

あんまり技術的な深堀りはない

章構成

第1章 AIエージェントとは？

第2章生成AIを知ろう

第3章 AIエージェントを構成する技術

第4章 AIエージェントが人に近づく理由

第5章 AIエージェントの具体例

第6章 AIエージェントの導入ロードマップ

第7章 AIエージェントが普及した未来と仕事

第8章企業でAIエージェントを使い倒すには

個人的に面白かったところ

1 章「AI エージェントとは」と 3 章「AI エージェントを構成する技術」

# AI エージェントについて

AI エージェントとは

各社が定義していて、一般化された厳密な定義はなさそう

共通するのは、人のように判断し実行までを行うこと

動的に自身のプロセスやツールの使用方法を決定するなど、目標達成の方法に制御権を持っている

RPA (ロボティック・プロセス・オートメーション) との違い: 例外処理や判断を伴う業務に対応できるか

AI エージェントの技術背景

第 1 の基盤が大規模言語モデル (LLM)

第 2 にデータベース

文脈検索に優れるベクトルデータベース

第 3 に関数呼出や API 連携の仕組み

第 4 にハードウェア (特に GPU) の進化

これは LLM の裏側という話なのでは？

AI エージェントの種類

自律型 AI エージェント: 目的だけを手掛かりに、自ら行動計画を立ててタスクを実行して結果を評価して改善を繰り返す

WF 型 AI エージェント: ワークフローがフローチャートで定められており、それに沿って AI が実行する

ChatGPT は「これはエージェントというよりワークフロー型 AI システムと呼ぶ方が適切では？」って言ってた

最近は WF 型をベースに一部を自律型に置き換えるハイブリッド運用が主流になりつつある

企業における AI エージェント

単なるツールではなく、企業の中で明確な役割と権限を持つデジタル人材として再定義する価値がある

企業は、AI エージェントに何を任せ、どこまで裁量を与えるかを設計する必要がある

人材管理と同様に、ガバナンスと責任体制の整備をする

最近は LLM が AI エージェントの機能を持つようになってきた

と書籍には書かれているが ChatGPT は次のように言っている

最近の LLM は、推論、計画、ツール選択、関数呼び出し、結果の解釈といった、AI エージェントを構成するための中核能力を持つようになっている

ただし、実際に自律的にタスクを遂行する AI エージェントは、LLM 単体ではなく、LLM にツール、メモリ、実行環境、権限管理、ワークフロー制御、人間の承認プロセスなどを組み合わせたシステムとして実現される

LLM はエージェントの“頭脳”として必要な機能を持つようになってきたが、実際のエージェントは LLM 単体ではなく、ツール・実行環境・メモリ・権限管理などを含むシステムである

# 概要的な技術的な話

ベクトルデータベース

テキストや画像、音声などの意味を数値ベクトルに変換して保存・検索する新しいタイプのデータベース

似ている内容やあいまいな質問にも柔軟に対応できる

エンベディング

文章や画像、音声などの情報をベクトル形式に変換する技術

自然言語を扱う AI において基礎的な重要な技術

ベクトル検索

エンベディングによって数値ベクトルに変換されたデータ同士を比較して検索する

一般的にはコサイン類似度などの指標でベクトル同士の近さを測る

扱うデータ量が多いと全てを正確に比較すると処理負荷が重くなるので、近似近傍探索 (ANN) と呼ばれる手法で高速に絞り込む

LangGraph

AI エージェントが複数のタスクを段階的に進めるためのワークフロー制御フレームワーク

LLM (大規模言語モデル) を使ったアプリをグラフ構造で設計・実行する

処理をノード (タスク) として繋ぎ、結果に応じて次の手順を切り替えられる

LangChain の拡張的な位置づけ

特にエージェント的な処理 (分岐・ループ・状態管理) に強い

チャンク化

# おわり

『図解まるわかり AI エージェントのしくみ』の、主に 1 章と 3 章から自分が興味深く感じた点を紹介した

書籍自体はそこまでおすすめってわけでもないが、こういう