Deep Dazeをやってみる

OpenAIのCLIPとSirenを組み合わせてテキスト（自然言語）から画像を生成するツールだそうです。もちろん何もわかっていませんがとりあえず使ってみます。

https://scrapbox.io/files/617468bcc162d800230b0e9e.pnghttps://scrapbox.io/files/617468c55233e3001d61124b.jpghttps://scrapbox.io/files/617468c39927d6001d86b86e.jpg

事前準備

Pythonの環境は準備願います。またライブラリや学習データなどデータ量が数十GBあるので、venvなどの仮想環境もあったほうが良いと思います。

Pythonのバージョンは3.6以上っぽいです。こういうのってなんか3.9以上が動かないみたいなことがよくあったのですが、これは3.9.1で動いています。

あとグラボがないと絶望的です。多分かなり厳しい。

✅まずCUDAをインストール。おそらく10.1がいいかも？

やってみてわかったけど、バージョン合わせがかなりシビアかもしれない。とりあえずこれを動かすためだけなら10.1でいいかも。

✅ CUDAのインストールが終わったらWindowsの環境変数を設定する。私は11.5もインストールしています。

https://scrapbox.io/files/61745db6dbb372001da3aa49.png

✅ Pytorchのインストール

Deep DazeのTorchのバージョンが1.7.1でないとエラー吐きやがったので、1.7.1にしたほうが良さそうです。なので、pipでインストールする場合は

code:python

$ pip install torch==1.7.1+cu101 torchvision==0.8.2+cu101 torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html

でインストールができると思います。詳細はPytorchの公式を見てください。

https://pytorch.org/get-started/previous-versions/

✅ pip自体とsetuptoolsのアップデート

code:python

$ python -m pip install --upgrade pip setuptools

✅ リポジトリをClone

https://github.com/lucidrains/deep-daze

✅ 仮想環境を作る（もちろん必須ではない）

code:python

$ python -m venv <venvname>

ここからやっとDeep Daze

✅ Deep Dazeをインストール

code:python

$ pip install deep-daze

✅ 諸々インストールできてるか確認

code:py

$ pip list

Package Version

----------------- -----------

colorama 0.4.4

deep-daze 0.10.3

einops 0.3.2

fire 0.4.0

ftfy 6.0.3

imageio 2.9.0

numpy 1.21.3

Pillow 8.4.0

pip 21.3.1

pytorch-ranger 0.1.1

regex 2021.10.23

setuptools 58.3.0

siren-pytorch 0.1.5

six 1.16.0

termcolor 1.1.0

torch 1.7.1+cu101

torch-optimizer 0.1.0

torchaudio 0.7.2

torchvision 0.8.2+cu101

tqdm 4.62.3

typing-extensions 3.10.0.2

wcwidth 0.2.5

多いな！

✅ 動かす

code:python

$ imagine "SENTENCE HERE!"

✅ Pythonで動かす場合は

code:python

from deep_daze import Imagine

imagine = Imagine(text = 'SENTENCE HERE!',num_layers = 24,)

imagine()

でOKでした。

これでエラーを吐かずにプログレスバーが動けばOKです。OKなのですが....

とにかく処理に死ぬほど時間がかかる！1枚の画像を作るのに数時間見たほうがいいかも...。

これどうなってんの？きびしすぎます。GPU使ってこんなに時間がかかるのか...

code:python

$ imagine "SENTENCE HERE!" --deeper

などとするとより良い感じになるが更に時間がかかるっぽい... 庶民には無理だ。

私の環境

Win10

RTX 2070 SUPER

最後に頑張って最後まで書き出した1枚を貼って終わります。

code:python

$ imagine "marijuana party house"

https://scrapbox.io/files/6174e0ed8f2b06001d3b7b49.jpg

つらい

#deep-daze #GAN #CLIP #Siren #python #coding