生成AI
生成AIの実応用に向けて
GPT-4登場以降に出てきたChatGPT/LLMに関する論文や技術の振り返り
Challenges and Applications of Large Language Models
Generative AI Test
生成AI活用プロジェクト推進時のポイント
数理科学10月号 ~ 生成AIのしくみと数理~
生成タスクは生成対象が高次元であり、かつ多峰性があるため、分岐や回帰などの典型的な機械学習タスクを違う
ガウス分布、エネルギーベースモデル、自己回帰モデル、VAE、拡散モデル、フローベースモデル、GAN
エネルギーベースモデル
ボルツマンマシン、ホップフィールドネットワーク
エネルギーベース、フローベース、VAEの結実が拡散モデル
拡散モデルの深層学習によるminimax最適性がある
生成モデルの学習は機械学習の1問題であり、機械学習の枠組みで捉えられるが、下記の2点が異なる
生成対象が高次元である、生成対象が多峰性を持っている
多様体仮説:世の中の興味のあるデータが見かけ上の次元数よりもずっと少ないパラメータで表現できる空間に分布している
Hop-filed network
生成AIの課題
1:データを生成d系る能力はデータ自信を理解している必要条件であるが、十分条件ではない
2:生成モデルは学習データから得られた知識を汎化し、学習データにないようなデータを生成できるようになっているが、この原理について解明されていない
生成モデルはモデルの構造と、どのように学習と生成が行われるかで特徴づけられる
A free short video on Hopfield Network (2024 Nobel Prize papers) “Hopfield Net”
大規模言語モデルと in-context-learningの構成
大規模言語モデルは文脈を読んで次のトークンを予測するという問題を解く機械学習モデルである
大規模言語モデルは文脈に応じて適応的に予測分布を変化させる
文脈中に与えられた入出力対から帰納的に予測を適応させる能力をIn-context学習という
自己注意機構が文脈の処理を担っている
大規模言語モデルは自己回帰モデルがよく用いられる
ランダムに与えられる予測タスクを解く方法自体を学習するという問題はメタ学習と呼ばれている
文脈中に含まれる入出力対を用いてその場で予測モデルを作って学習を行うというプロセスが明示的にモデル化されているわけではないのに、IN-context学習の能力があるということはnext token predictionがin-context学習タスクを黙秘的に含んでいる
モデルは単一の予測問題が解けれ良いのではなく、in-contextデータが定める分布をその場で推測して、テストデータに対する予測分布を適応的に変化させる
線形注意機構
大規模言語モデルで用いられる注意機構によって、単純化された回帰問題のIn-context learningが表現できる
線形注意機構を用いることで、最小二乗回帰の勾配法がシミュレートでき、ソフトマックス注意機構を用いることでIn-contextなカーネル平滑化による予測が実現できる
AI Alignment and LLMs
Emu3: Next-Token Prediction is All You Need