広聴AIの技術解説講義案
tokoroten.iconがそのうちやる
公開した
https://www.docswell.com/s/tokoroten/ZL1M88-2025-06-14-014546
スライド
基礎技術編
文字とは何か?
同じとは何か?
シノニム辞書の整備
余談:形態素解析
word2vec
埋め込みは何が良いのか?
意味が幾何学として計算できる
コサイン類似度、dot積で意味が分かる
ベクトル→ベクトルのなす角→cosΘ で角度が分かる
多次元へ拡張できる
単語ベクトルの限界
BERT:単語ベクトルから文脈意味ベクトルへ
文脈の意味が多次元空間に埋め込まれる
文章の意味が距離計算できるようになる
BERTからLLMへ
前後文脈から意味を推定→過去の文字から現在の文字の意味を推定→過去の文字から次の文字を予測
こいつが極まった結果、とんでもないことになっているなう
余談)トークン化
基盤モデル
LLMは何ができるのか?
次の言葉を予測するというのを突き詰めた結果、知性が生まれてしまった
LLMの事例いろいろ
非構造化データが取り扱えるようになった
ジュライのプログラムは構造化データしか取り扱えなかったが、非構造化データが取り扱えるようになったため、コンピュータの適用範囲が飛躍的に増大しており、これが、社会を変えるトリガーとなりつつある
StructuredOutputによってプログラムに組み込みやすくなった
広聴AIのワークフロー
Extraction
LLMを使って入力データをクレンジング+分割
ここで個人情報の除去をやろうとしている
エンベデッディング
OpenAIを使ったエンベデッディング
SentenseTransformerを使ったエンベデッディング
余談:今話題のベクトル検索とは何か?
ようはgoogleを5年遅れで再現しているだけだよ
ベクトル検索は、全件舐めなくても良くなった、HNSW
クラスタリング
UMAPを説明する前にPCAを説明
いい感じの次元圧縮とは何か?
UMAPとは何か?
UMAPによる2次元射影
k-meansによるクラスタリング
イニシャルラベル
LLMによるラベリング
あとでちゃんとコードを読む
マージラベル
LLMによるラベリングその2
あとでちゃんとコードを読む
統合
ガチャガチャファイルを読み込んで、いい感じのjsonを作って、アプリから読み込み可能にする
すごい資料でしたtsuzumik.icon
外部公開資料