Deep Dazeをやってみる
OpenAIのCLIPとSirenを組み合わせてテキスト(自然言語)から画像を生成するツールだそうです。もちろん何もわかっていませんがとりあえず使ってみます。
https://scrapbox.io/files/617468bcc162d800230b0e9e.pnghttps://scrapbox.io/files/617468c55233e3001d61124b.jpghttps://scrapbox.io/files/617468c39927d6001d86b86e.jpg
事前準備
Pythonの環境は準備願います。またライブラリや学習データなどデータ量が数十GBあるので、venvなどの仮想環境もあったほうが良いと思います。
Pythonのバージョンは3.6以上っぽいです。こういうのってなんか3.9以上が動かないみたいなことがよくあったのですが、これは3.9.1で動いています。
あとグラボがないと絶望的です。多分かなり厳しい。
✅まずCUDAをインストール。おそらく10.1がいいかも? やってみてわかったけど、バージョン合わせがかなりシビアかもしれない。とりあえずこれを動かすためだけなら10.1でいいかも。
✅ CUDAのインストールが終わったらWindowsの環境変数を設定する。私は11.5もインストールしています。
https://scrapbox.io/files/61745db6dbb372001da3aa49.png
✅ Pytorchのインストール
Deep DazeのTorchのバージョンが1.7.1でないとエラー吐きやがったので、1.7.1にしたほうが良さそうです。なので、pipでインストールする場合は
code:python
でインストールができると思います。詳細はPytorchの公式を見てください。
✅ pip自体とsetuptoolsのアップデート
code:python
$ python -m pip install --upgrade pip setuptools
✅ リポジトリをClone
✅ 仮想環境を作る(もちろん必須ではない)
code:python
$ python -m venv <venvname>
ここからやっとDeep Daze
✅ Deep Dazeをインストール
code:python
$ pip install deep-daze
✅ 諸々インストールできてるか確認
code:py
$ pip list
Package Version
----------------- -----------
colorama 0.4.4
deep-daze 0.10.3
einops 0.3.2
fire 0.4.0
ftfy 6.0.3
imageio 2.9.0
numpy 1.21.3
Pillow 8.4.0
pip 21.3.1
pytorch-ranger 0.1.1
regex 2021.10.23
setuptools 58.3.0
siren-pytorch 0.1.5
six 1.16.0
termcolor 1.1.0
torch 1.7.1+cu101
torch-optimizer 0.1.0
torchaudio 0.7.2
torchvision 0.8.2+cu101
tqdm 4.62.3
typing-extensions 3.10.0.2
wcwidth 0.2.5
多いな!
✅ 動かす
code:python
$ imagine "SENTENCE HERE!"
✅ Pythonで動かす場合は
code:python
from deep_daze import Imagine
imagine = Imagine(text = 'SENTENCE HERE!',num_layers = 24,)
imagine()
でOKでした。
これでエラーを吐かずにプログレスバーが動けばOKです。OKなのですが....
とにかく処理に死ぬほど時間がかかる!1枚の画像を作るのに数時間見たほうがいいかも...。
これどうなってんの?きびしすぎます。GPU使ってこんなに時間がかかるのか...
code:python
$ imagine "SENTENCE HERE!" --deeper
などとするとより良い感じになるが更に時間がかかるっぽい... 庶民には無理だ。
私の環境
Win10
RTX 2070 SUPER
最後に頑張って最後まで書き出した1枚を貼って終わります。
code:python
$ imagine "marijuana party house"
https://scrapbox.io/files/6174e0ed8f2b06001d3b7b49.jpg
つらい