Meissonic
Why?nomadoor.icon
オートレグレッシブ言語モデルとは?ChatGPT.icon
オートレグレッシブ言語モデルは、文章を一つずつ順番に生成する方法なんだ。例えば、「今日は天気がいいです」という文章を作るときは、「今日は」の次に「天気」、その次に「が」…というふうに前の単語をもとに次の単語を予測して生成するんだ。このやり方だと、文章の構造が時間的に順序立てて扱えるから、文脈のつながりを保ちやすいという利点がある。
Diffusionモデルとは?
一方、Diffusionモデルはノイズから徐々に画像を生成する方法なんだ。最初は全体がランダムなノイズ(砂嵐みたいなもの)で、そこから少しずつ本物の画像に近づけていく。この過程では、最初から全部のピクセルを一度に扱っているから、全体の構造を一気に学習する必要がある。
なぜ一緒に扱うのが難しいのか?
言語モデルは順序を意識して一つずつ生成するのに対し、Diffusionモデルは全体を一気に生成するという点で、基本的な動き方が異なるんだ。
MaskGITやMUSEがそれにあたるが、512px×512pxまでしか生成できなかったり、細かい描写が弱かったりといくつかの制約がある https://gyazo.com/a3ed794a2c928fa71b56c26eb6b3c234
トークンの一部をマスク(隠)す
デコードし画像に戻す
関連