Visual ChatGPTをローカル環境で動かす
参考
Google Colab で Visual ChatGPT を試す
Visual ChatGPT
スペック要件
下の表にあるように一つの機能で大体VRAM6GB使います
RTX3070だと8GBしかないのでT2Iを使ったら他使えません
現状グラボ富豪向けです
table:VRAM
Foundation Model Memory Usage (MB)
ImageEditing 6667
ImageCaption 1755
T2I 6677
canny2image 5540
line2image 6679
hed2image 6679
scribble2image 6679
pose2image 6681
BLIPVQA 2709
seg2image 5540
depth2image 6677
normal2image 3974
InstructPix2Pix 2795
注意
とても行き当たりばったりなので参考にしないでくださいnomadoor.icon
構築環境
Windows11 & Powershell
0 準備
✅git
✅NVIDIAドライバhttps://www.nvidia.co.jp/Download/index.aspx?lang=jp
✅CUDA Toolkit 11.7https://developer.nvidia.com/cuda-11-7-0-download-archive
✅cuDNN 8.8.1 for CUDA 11.xhttps://developer.nvidia.com/rdp/cudnn-download
✅Python 3.8
パスは通ってなくていいです
仮想環境としてVirtualenv使います
$ pip install virtualenv
1 git clone
適当なフォルダに移動
フォルダ内で右クリックしてgit bash
$ git clone https://github.com/microsoft/visual-chatgpt.git
2 imageフォルダを作る
visual-chatgptフォルダ内にimgaeフォルダを作ってください
$ mkdir ./image
普通に右クリックで作ってもいい
作った画像はここに保存されます
3 requirement.txtの編集
code:requirement.txt
opencv-contrib-python==4.3.0.36
↓
opencv-contrib-python
opencv-contrib-python==4.3.0.36 は削除されてるらしい
4 仮想環境構築
Powershellでvisual-chatgptフォルダに移動
$ cd ~~\visual-chatgpt
Python 3.8の仮想環境を作る
$ virtualenv -p python3.8 venv
venvに入る
$ .\venv\Scripts\activate
一応Pythonのバージョンを確認
$ python -V
3.8ならOK
pipインストール
$ pip install -r requirement.txt
5 モデルをダウンロード
bash download.sh
でできれば良いのだけれど.sh拡張子ははPowershellでは扱えない
WSL分かる人はそれでいけると思います
代わりにgit bashでいけるらしい
ただし、download.sh内で使われているwgetコマンドをgit bashでは扱えない
ので、git bashを少しカスタムする
カスタムする
https://eternallybored.org/misc/wget/ から最新版のwget.exeをダウンロード
C:\Program Files\Git\mingw64\binに置く
これでダウンロードできるハズnomadoor.icon
右クリックしてgit bash
$ bash download.sh
6 visual_chatgpt.pyの編集
デフォルトでは上のテーブルにある機能全部使うようになっています
が、当然VRAMがまったく全然足りないので使わないものをコメントアウトして機能を制限します
さらに複数のグラボを使う設定になっていますが、当然1つしかないので全部cuda:0にします
800行目以降
https://gyazo.com/5a572292602c30b6981fddc1d4f519f7https://gyazo.com/23f30b1208d29a2b0debb6e624f5d47e
左 before / 右 after (分かりにくい)
画像はT2I以外全部コメントアウトしてますが、VRAMに余裕があれば複数を組み合わせてみてね
最後の]忘れやすいので注意
機能を切り替える度にコメントアウトする部分を変えるのは面倒くさいのでpyファイルをコピペして複数作ってますnomadoor.icon
visual_chatgpt-t2i.py / visual_chatgpt-ImageEditing.py etc.
【動かす】 以下は起動するたび毎回やります
Powershellでvisual-chatgptフォルダに移動
$ cd ~~\visual-chatgpt
venvに入る
$ .\venv\Scripts\activate
7 OpenAIのAPIキーを取得して環境変数に設定
OpenAIのAPIキーを取得します
環境変数に設定
$ $env:OPENAI_API_KEY = "YOUR_API_KEY"
YOUR_API_KEYに取得したAPIキーを入れます
8 実行
$ python visual_chatgpt.py
カスタムしたpyファイルを複数用意した人はpython visual_chatgpt-t2i.pyのように
🚨No CUDA runtime is found, using CUDA_HOME=が出てハマった人
→ /road2noma/visual chatgptをローカル環境で使う#640d992ee2dacc00007bab45
うまくいくとRunning on local URL: http://0.0.0.0:7860と表示される
0.0.0.0の部分を127.0.0.1にするとブラウザで開けるようになるよ
詳しいことはよく知らないです()nomadoor.icon
$ http://127.0.0.1:7860/
https://gyazo.com/e466daa1d05d67ed85a1b7124fb31993
こんな画面がでてきたらOK!
機能
T2I
https://gyazo.com/acd33f88bb43adad097f805d02651c87
$ Outside the window you can see snowy trees and inside the room there is a wood stove. Please generate an image taken from inside the room taken with a sony α7 at f/4.
Visual ChatGPT