Visual ChatGPTをローカル環境で動かす

参考

Google Colab で Visual ChatGPT を試す

Visual ChatGPT

スペック要件

下の表にあるように一つの機能で大体VRAM6GB使います

RTX3070だと8GBしかないのでT2Iを使ったら他使えません

現状グラボ富豪向けです

table:VRAM

Foundation Model Memory Usage (MB)

ImageEditing 6667

ImageCaption 1755

T2I 6677

canny2image 5540

line2image 6679

hed2image 6679

scribble2image 6679

pose2image 6681

BLIPVQA 2709

seg2image 5540

depth2image 6677

normal2image 3974

InstructPix2Pix 2795

注意

とても行き当たりばったりなので参考にしないでくださいnomadoor.icon

構築環境

Windows11 & Powershell

0 準備

✅git

✅NVIDIAドライバhttps://www.nvidia.co.jp/Download/index.aspx?lang=jp

✅CUDA Toolkit 11.7https://developer.nvidia.com/cuda-11-7-0-download-archive

✅cuDNN 8.8.1 for CUDA 11.xhttps://developer.nvidia.com/rdp/cudnn-download

✅Python 3.8

パスは通ってなくていいです

仮想環境としてVirtualenv使います

$ pip install virtualenv

1 git clone

適当なフォルダに移動

フォルダ内で右クリックしてgit bash

$ git clone https://github.com/microsoft/visual-chatgpt.git

2 imageフォルダを作る

visual-chatgptフォルダ内にimgaeフォルダを作ってください

$ mkdir ./image

普通に右クリックで作ってもいい

作った画像はここに保存されます

3 requirement.txtの編集

code:requirement.txt

opencv-contrib-python==4.3.0.36

↓

opencv-contrib-python

opencv-contrib-python==4.3.0.36 は削除されてるらしい

4 仮想環境構築

Powershellでvisual-chatgptフォルダに移動

$ cd ~~\visual-chatgpt

Python 3.8の仮想環境を作る

$ virtualenv -p python3.8 venv

venvに入る

$ .\venv\Scripts\activate

一応Pythonのバージョンを確認

$ python -V

3.8ならOK

pipインストール

$ pip install -r requirement.txt

5 モデルをダウンロード

bash download.sh

でできれば良いのだけれど.sh拡張子ははPowershellでは扱えない

WSL分かる人はそれでいけると思います

代わりにgit bashでいけるらしい

ただし、download.sh内で使われているwgetコマンドをgit bashでは扱えない

ので、git bashを少しカスタムする

カスタムする

https://eternallybored.org/misc/wget/ から最新版のwget.exeをダウンロード

C:\Program Files\Git\mingw64\binに置く

これでダウンロードできるハズnomadoor.icon

右クリックしてgit bash

$ bash download.sh

6 visual_chatgpt.pyの編集

デフォルトでは上のテーブルにある機能全部使うようになっています

が、当然VRAMがまったく全然足りないので使わないものをコメントアウトして機能を制限します

さらに複数のグラボを使う設定になっていますが、当然1つしかないので全部cuda:0にします

800行目以降

https://gyazo.com/5a572292602c30b6981fddc1d4f519f7https://gyazo.com/23f30b1208d29a2b0debb6e624f5d47e

左 before / 右 after (分かりにくい)

画像はT2I以外全部コメントアウトしてますが、VRAMに余裕があれば複数を組み合わせてみてね

最後の]忘れやすいので注意

機能を切り替える度にコメントアウトする部分を変えるのは面倒くさいのでpyファイルをコピペして複数作ってますnomadoor.icon

visual_chatgpt-t2i.py / visual_chatgpt-ImageEditing.py etc.

【動かす】以下は起動するたび毎回やります

Powershellでvisual-chatgptフォルダに移動

$ cd ~~\visual-chatgpt

venvに入る

$ .\venv\Scripts\activate

7 OpenAIのAPIキーを取得して環境変数に設定

OpenAIのAPIキーを取得します

環境変数に設定

$ $env:OPENAI_API_KEY = "YOUR_API_KEY"

YOUR_API_KEYに取得したAPIキーを入れます

8 実行

$ python visual_chatgpt.py

カスタムしたpyファイルを複数用意した人はpython visual_chatgpt-t2i.pyのように

🚨No CUDA runtime is found, using CUDA_HOME=が出てハマった人

→ /road2noma/visual chatgptをローカル環境で使う#640d992ee2dacc00007bab45

うまくいくとRunning on local URL: http://0.0.0.0:7860と表示される

0.0.0.0の部分を127.0.0.1にするとブラウザで開けるようになるよ

詳しいことはよく知らないです()nomadoor.icon

$ http://127.0.0.1:7860/

https://gyazo.com/e466daa1d05d67ed85a1b7124fb31993

こんな画面がでてきたらOK！

機能

T2I

https://gyazo.com/acd33f88bb43adad097f805d02651c87

$ Outside the window you can see snowy trees and inside the room there is a wood stove. Please generate an image taken from inside the room taken with a sony α7 at f/4.

Visual ChatGPT