pattern-diffusion
一から学習されてるのでApache2.0ライセンス
概要
最先端の画像生成モデルの大きな弱点は、シームレスな(繰り返し/タイル化可能な)画像であり、特に製品の表面、織物印刷、壁紙など、画像が完全に平坦で奥行き感を避けなければならない場合に顕著です。これを克服するために、Pattern Diffusionは約680万個のタイル化可能なパターンを用いてゼロから学習されました。
SDXLやFLUXなどの本格的な拡散モデルと比較すると、unet拡散モデルは、すべての画像に繰り返しパターン/特徴がある場合、学習に必要なデータ量と計算量が大幅に少なくなります。パターン拡散は、8xA100、バッチサイズ2048、合計65,000ステップで、1000GPU時間未満で学習されました。学習は4段階で行われ、256x256から開始し、各段階で256ピクセルずつ増加させ(256、512、768、1024)、各段階でFIDとCLIPスコアの向上が止まるまで続けました。
また、以下では、conv2D レイヤーでノイズ ローリングと円形パディングの両方を組み合わせることで、タイル化可能な画像生成に最適な結果を生成する推論実装の例もご覧いただけます。