広聴AIの技術解説講義案
tokoroten.iconがそのうちやる
公開した
基礎技術編
文字とは何か?
同じとは何か?
シノニム辞書の整備
埋め込みは何が良いのか?
意味が幾何学として計算できる
ベクトル→ベクトルのなす角→cosΘ で角度が分かる
多次元へ拡張できる
文脈の意味が多次元空間に埋め込まれる
文章の意味が距離計算できるようになる
前後文脈から意味を推定→過去の文字から現在の文字の意味を推定→過去の文字から次の文字を予測
こいつが極まった結果、とんでもないことになっているなう
余談)トークン化
LLMは何ができるのか?
次の言葉を予測するというのを突き詰めた結果、知性が生まれてしまった
LLMの事例いろいろ
ジュライのプログラムは構造化データしか取り扱えなかったが、非構造化データが取り扱えるようになったため、コンピュータの適用範囲が飛躍的に増大しており、これが、社会を変えるトリガーとなりつつある
Extraction
LLMを使って入力データをクレンジング+分割
ここで個人情報の除去をやろうとしている
エンベデッディング
OpenAIを使ったエンベデッディング
ようはgoogleを5年遅れで再現しているだけだよ
ベクトル検索は、全件舐めなくても良くなった、HNSW UMAPとは何か?
UMAPによる2次元射影
イニシャルラベル
あとでちゃんとコードを読む
マージラベル
LLMによるラベリングその2
あとでちゃんとコードを読む
統合
ガチャガチャファイルを読み込んで、いい感じのjsonを作って、アプリから読み込み可能にする
すごい資料でしたtsuzumik.icon