Meissonic

https://github.com/viiika/Meissonicviiika/Meissonic

https://huggingface.co/MeissonFlow/MeissonicMeissonFlow/Meissonic

https://arxiv.org/abs/2410.08261Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

近年画像生成で注目されている拡散モデルはautoregressive language modelsとは全く違う動作で動いているため、言語（文章）と画像を一緒にうまく扱うのが難しい

Why?nomadoor.icon

オートレグレッシブ言語モデルとは？ChatGPT.icon

オートレグレッシブ言語モデルは、文章を一つずつ順番に生成する方法なんだ。例えば、「今日は天気がいいです」という文章を作るときは、「今日は」の次に「天気」、その次に「が」…というふうに前の単語をもとに次の単語を予測して生成するんだ。このやり方だと、文章の構造が時間的に順序立てて扱えるから、文脈のつながりを保ちやすいという利点がある。

Diffusionモデルとは？

一方、Diffusionモデルはノイズから徐々に画像を生成する方法なんだ。最初は全体がランダムなノイズ（砂嵐みたいなもの）で、そこから少しずつ本物の画像に近づけていく。この過程では、最初から全部のピクセルを一度に扱っているから、全体の構造を一気に学習する必要がある。

なぜ一緒に扱うのが難しいのか？

言語モデルは順序を意識して一つずつ生成するのに対し、Diffusionモデルは全体を一気に生成するという点で、基本的な動き方が異なるんだ。

そこで注目されたのがnon-autoregressive Masked Image Modeling (MIM)

MaskGITやMUSEがそれにあたるが、512px×512pxまでしか生成できなかったり、細かい描写が弱かったりといくつかの制約がある

https://gyazo.com/a3ed794a2c928fa71b56c26eb6b3c234

VQ-VAEで画像をトークンに変換

トークンの一部をマスク(隠)す

Multi-modal Transfromerで隠されたトークンを予測する

デコードし画像に戻す