生成AI - yuyan

生成AI

生成AIの実応用に向けて

GPT-4登場以降に出てきたChatGPT/LLMに関する論文や技術の振り返り

Challenges and Applications of Large Language Models

Generative AI Test

生成AI活用プロジェクト推進時のポイント

数理科学10月号 ~ 生成AIのしくみと数理~

生成タスクは生成対象が高次元であり、かつ多峰性があるため、分岐や回帰などの典型的な機械学習タスクを違う

ガウス分布、エネルギーベースモデル、自己回帰モデル、VAE、拡散モデル、フローベースモデル、GAN

エネルギーベースモデル

ボルツマンマシン、ホップフィールドネットワーク

エネルギーベース、フローベース、VAEの結実が拡散モデル

拡散モデルの深層学習によるminimax最適性がある

生成モデルの学習は機械学習の1問題であり、機械学習の枠組みで捉えられるが、下記の2点が異なる

生成対象が高次元である、生成対象が多峰性を持っている

多様体仮説：世の中の興味のあるデータが見かけ上の次元数よりもずっと少ないパラメータで表現できる空間に分布している

Hop-filed network

生成AIの課題

1:データを生成d系る能力はデータ自信を理解している必要条件であるが、十分条件ではない

2:生成モデルは学習データから得られた知識を汎化し、学習データにないようなデータを生成できるようになっているが、この原理について解明されていない

生成モデルはモデルの構造と、どのように学習と生成が行われるかで特徴づけられる

A free short video on Hopfield Network (2024 Nobel Prize papers) “Hopfield Net”

大規模言語モデルと in-context-learningの構成

大規模言語モデルは文脈を読んで次のトークンを予測するという問題を解く機械学習モデルである

大規模言語モデルは文脈に応じて適応的に予測分布を変化させる

文脈中に与えられた入出力対から帰納的に予測を適応させる能力をIn-context学習という

自己注意機構が文脈の処理を担っている

大規模言語モデルは自己回帰モデルがよく用いられる

ランダムに与えられる予測タスクを解く方法自体を学習するという問題はメタ学習と呼ばれている

文脈中に含まれる入出力対を用いてその場で予測モデルを作って学習を行うというプロセスが明示的にモデル化されているわけではないのに、IN-context学習の能力があるということはnext token predictionがin-context学習タスクを黙秘的に含んでいる

モデルは単一の予測問題が解けれ良いのではなく、in-contextデータが定める分布をその場で推測して、テストデータに対する予測分布を適応的に変化させる

線形注意機構

大規模言語モデルで用いられる注意機構によって、単純化された回帰問題のIn-context learningが表現できる

線形注意機構を用いることで、最小二乗回帰の勾配法がシミュレートでき、ソフトマックス注意機構を用いることでIn-contextなカーネル平滑化による予測が実現できる

AI Alignment and LLMs

Emu3: Next-Token Prediction is All You Need