2022年10月のダイジェストdraft
nishio.icon社内勉強会向けの発表資料のドラフトです
下記のドラフトは保全する必要がないと思うので切り出すなりなんなりご自由にどうぞ
draft~~~
10/3 小説作成AIのサービスを提供していたNovelAI社、有償の画像生成AI NovelAIDiffusionをリリース
アニメ絵特化で高クオリティに騒然
Stable Diffusionではできなかった任意アスペクト比の画像生成が可能
日本語圏では学習元が無断転載サイトであるとして怒り出す人が発生
10/7 NovelAIDiffusionのソースコードとモデルが流出、Torrentで共有される
10/12 NovelAI、リリースから10日で生成された画像が3000万枚を突破とアナウンス
大雑把にいって1日300万円売り上げが立つイメージ
10/17 中国語のNovelAIプロンプトマニュアル「元素法典」が話題に
中国語圏でNovelAIの流出モデル利用がメジャーである傍証
10/18 Imagicが話題に
とても有益、ちゃんと使えるという話と、いまいち期待したように使えないという意見がある
僕は後者なんだけど、これって「上手い使い方を理解してないだけ」の可能性がある
10/20 Stable Diffusion、1.4をリリースしたStability AI社ではなく、Runway社から1.5がリリースされる。Stability AIは一時削除申請をするが、後に取り下げる
10/21 Stability AI、(大慌てで?)新しいVAEをリリース、目や顔のデコードを改善するもの
10/22 日本語でNovelAI関連の情報を発信していた人の自宅に変な人が来て警察沙汰に
11/3「NovelAI Aspect Ratio Bucketing」がMITライセンスで公開
NovelAIDiffusionリリース
小説作成AIのサービスを提供していたNovelAI社、有償の画像生成AI NovelAIDiffusionをリリース
Stable Diffusionではプロンプトが77トークンで打ち切られていたが、NovelAIDiffusionでは3倍の231トークン
Stable Diffusionでは学習データが正方形にトリミングされていたがNovelAI社の工夫によって任意のアスペクト比での生成が可能になった
論文公開を目的とする大学研究室と違って営利企業のサービスなので詳細は非公開だった(後に公開された)
アスペクト比は構図に強く影響する
code: NAI Curated
girl, blue eyes, blue long hair, blue cat ears, chibi
https://gyazo.com/ec303056563dd0308f6530af5549d053https://gyazo.com/a8a40c57789dea0cd4e523c2ed84999chttps://gyazo.com/e34a2583abf1105d02ba614f08c2877d
生成される絵の分布が著しく偏っている
https://gyazo.com/487f8d241846f06d4a34770a344703dbhttps://gyazo.com/65e72a194351fed5c17fc59eb07d4961
「とりあえずStable Diffusionとの比較の為にblack catって入れてみるかー」で1枚目が出てお茶を吹きそうになったw
得意分野「アニメ調の女性」に対して圧倒的強さを示してSNSが騒然となった
ここに記録されているTweetがほとんど「アニメ調の女性」なのが特徴的
多種多様な「絵」の分布のうちの狭い領域に対して特化してリソースを注ぎ込んだことにより、その領域においてユーザ価値が分水嶺を超えた
他の領域に関しては表現力が下がるわけだが、伸ばした特徴が顧客に刺さったというわけだ
学習に使われているデータセットに対して議論が巻き起こった
学習にDanbooruという「有志が画像にタグ付けをして、タグから画像を探せるようにしているサービス」のデータを使っている
賛否両論(というか少なくとも日本語SNSでは否定的意見が大きな声で発信された)
否定的意見:
Danbooruは無断転載サイトであり、違法だ。
違法なデータで学習したAIは悪だ、敵だ。
このAIは有償サービスだ、そこで得た利益は我々から盗んだものだ。
ところでDanbooru自体は元画像に対する出典を明記し、リンクを貼っているので、この「無断転載」に違法性があるのかどうかはなかなか難しいところ
https://gyazo.com/18161037994ef05c4645892aeac400f7https://gyazo.com/f06398234bfe68c7bda296b4c332b7ed
Pixivから転載した旨が明記されている
フェアユースなのでは説
Google検索で検索結果にGoogleのサーバに複製された画像キャッシュが表示されることとの関係
画像が小さければ「これは検索結果のサムネイルです」になる
画像が直リンクなら「複製はしていません」になる
画像が大きいので意見がわかれる感じ
もちろんユーザ投稿コンテンツなので、中には違法にアップロードされているものもあるかもしれない
(例えばオンラインで公開していないデジタルコミックからの転載など)
でもそれに関してもデジタルミレニアム著作権法(DMCA)に則って運用してればサービス運営主体は罪には問われないわけで:
ノーティスアンドテイクダウン手続 (DMCA通告)
著作権者の許可なく著作物が第三者によってウェブサイトに掲載されたと通知 (notice) を受けた場合、そのウェブサイトの運営者が速やかに削除 (takedown) すれば損害賠償などを免責される
被害にあった人からは蛇蝎のように嫌われているだろうけども、法的には被害者の側の責任
「AIのことはNovelAIに言え、我々は関係ない。著作権者である証拠があれば削除には応じる」
DMCA的には無断転載されていると主張する側に立証責任があるから、そういうだろうね
世界では「Danbooruを使うことに何か問題が?」という感じ
・StableDiffusion…LAION 5B にDanbooruの画像URLがある
・WaifuDiffusion…Danbooru 2021 データセット使用を明言
・NovelAI…Danbooru利用を明言。
・ミッドジャーニー…WaifuLabsとコラボしてSafebooru由来のデータを使う(予定)
これがNijijoureneyになったのか~(現在WaifuLabsのサイトにアクセスするとNijijourneyに誘導されるリンクが出る)
つまりみんなDanbooru使ってるやん! となります
つまりNovelAIがDanbooruを使っていることに対する日本語圏の反応は集団極性化現象
反対派が大きな声で叫んだのでニュートラル〜賛成派は被害を恐れて黙った
「試しているけど情報発信してない」という意見を複数チャンネルで聞いた
「論理的に正しい意見でも、おかしな人に絡まれることはあるから控えた方がいいのでは」と僕に忠告してくれた人もいる
積極的に発信していた人の自宅に変な人が来た事例
twitter上では、「AIタグが付いてる絵は非表示にしている。やはり絵は人間が描いてこそ」という声も散見されるが、それが単なる「声の大きい少数派の意見」でしかなかったことが、pixivでの自アカの数字を見ていてまざまざと感じた事実だ。
Pixivが「AI生成作品を排除せず、ランキングをわけて棲み分けさせる」という着地をした
NovelAI流出
10/7 NovelAIDiffusionのソースコードとモデルが流出、Torrentで共有される
リリースからわずか4日でw
10/12 NovelAI、リリースから10日で生成された画像が3000万枚を突破とアナウンス
https://gyazo.com/d969383120e2b7534cfa13e28d8e4fda
https://gyazo.com/009042f555c1f5f34189e86c14faade1
プリセットのサイズの中で一番小さい512x512で、デフォルトパラメータで4枚生産したら20anlasなので11ドルで2000枚くらい
高解像度化とかにも使われてるだろうから大雑把に言えば1枚1円ぐらい
大雑把にいって1日300万円売り上げが立つイメージ
10/17 中国語のNovelAIプロンプトマニュアル「元素法典」が話題に
https://gyazo.com/f2732d53db16958208ab0c02fe9369cfdocs https://gyazo.com/d6123280b089eedc35c54fa78baf0c58
https://gyazo.com/7ea88e2f341de202cf6061ce045bb6a3
トークンのベクトル強調に使われているこの丸括弧、NovelAIのサービスでは機能しない
丸括弧はローカルでStable Diffusionを動かす際のデファクトスタンダードなAUTOMATIC1111/stable-diffusion-webuiの機能
つまりこれ、中国語圏ではNovelAIのサービスではなく、ローカルで流出モデルを使うのがメジャーである傍証なのでは
流出モデルの使用、日本国内では「違法なのでやめましょう」的なことを言う人もいるけど、何の法に触れるんだろう?よくわからない
日本の法律だと不正競争防止法2条1項5号かな?
その営業秘密について営業秘密不正取得行為が介在したことを知って、若しくは重大な過失により知らないで営業秘密を取得し、又はその取得した営業秘密を使用し、若しくは開示する行為
NovelAIはデラウェアだったと思うけど、たぶん似たような法律があるんじゃないかな
まああったとしても中国のユーザを訴えるのは難しそうだ
なんならすでに流出したやつは誰が権利盛ってるのかすら不明wogikaze.icon
Imagic
10/18 Imagicが話題に
@AbermanKfir: The combination of #dreambooth and embedding optimization paves the way to new image editing capabilities. Love it. Congrats on this nice work! https://gyazo.com/c4b331f315d8d71419e2fb58ada3a5c7
とても有益、ちゃんと使えるという話と、いまいち期待したように使えないという意見がある
僕は後者なんだけど、これって「上手い使い方を理解してないだけ」の可能性がある
https://gyazo.com/905cdfcbae8f2199b00fbb470fd7db67 + "a woman wearing black suit" = https://gyazo.com/a0f9ca631a50c9c47882cdb6ac64cb05
@npaka123: うちの猫を Imagic Stable Diffusion で寝かせようとしたら(a cat is sleeping)、猫は変わらず、寝室っぽいとこに移動した https://gyazo.com/fa771749f4acae0d83a659c61c67237ahttps://gyazo.com/82e5fd5bdcbc9ecffc35ef543dc73e1b
https://gyazo.com/6b7beb6c41765ff93c1bdede39f5d14ahttps://gyazo.com/ece7c6d8f55c16a421c86b70afdf5204
プロンプトにwith flowerをつけた
デフォルトではstrengthが0.9だが、それでは全然変化しなかったので増やしていくと花がついた
https://gyazo.com/bdd1d9b05d5d826c4b5b623fdd88fb70
まあ確かにNovelAIのモデルで生成したものをStable DiffusionのモデルでImagicしてまともに動いてることの方がすごいのか
nishio.iconimg2imgに比べて2桁くらい時間コスト高い割に、元絵をそれほど維持してくれるわけでもない
モデル違うので、維持しない方が普通
原理などの話を今回の発表の最後に加筆した
Stable Diffusion 1.5
10/20 Stable Diffusion、1.4をリリースしたStability AI社ではなく、Runway社から1.5がリリースされる
Stability AIは一時削除申請をするが、後に取り下げる
Stability AI側が共同研究の成果物の権利範囲をきちんと把握してなかったミスだろうな
独占的権利があると思い込んでいたが、実はなかった、的なやつ
Runwayの側としては知名度向上のチャンスなのでリリースするのは合理的
この件でRunwayを知ったり意識したりし始めた人も多いと思う、僕もそう
考察
Stability AI側はNSFW対策を進めたいが、対策してないモデルもリリースしたいのでRunwayがリリースしたのでは説
無理があると思う
Runwayだって私企業な訳なのでリスクを引き受けるインセンティブなくない?
その目的だったらNovelAIと同じように「匿名のハッカーの攻撃で流出した」というポーズで流出させればいいだけでは。
10/21 Stability AI、(大慌てで?)新しいVAEをリリース、目や顔のデコードを改善するもの
1.6をリリースできる状態にないが、Runwayが最新である状態が長く続くのも困るので、リリースできるところを取り急ぎリリースしとけ的なことだと解釈してる
Runwayからの1.5のモデルとStability AIからのVAEを手元で組み合わせて「顔の表現がすごく良くなった!」と言ってる人はいる
が個人的には「dependency hellが始まりそうだなー」という気持ちになって距離を置いてる
Runway: AI Magic Tool
動画編集を中心に色々な便利機能を詰め合わせたサービスを提供している
Infinite Image
いわゆるoutpainting
https://gyazo.com/e2ba3a5007a13db2ed0b672d38e628behttps://gyazo.com/2f924b10840f6848a8abba45616879c5
遠くから見れば合成したとわからない?
合成したい範囲を指定して
https://gyazo.com/afd13ca995fbfe6726ee3e8be4d36a03
生成ボタンを押すと4枚作られて選ぶことができる
https://gyazo.com/ff857109afe0720fb5009cd51f811f71https://gyazo.com/24c6ac45328412eb8f770c16c801ea99https://gyazo.com/27b221e146cc92face56920c611b8243https://gyazo.com/8b9aec27e53f5feed3f48a488f19017f
アニメ調はあまり得意ではなさそう
https://gyazo.com/6b49334374d1adfffa61f036768f12ca→https://gyazo.com/65af1d0f78bebbb48de566a423ceb535
NovelAI img2img Noise 0 Strength 0.5してみた
outpaintingでは元々あった画像(表情とか)は変化していない
img2imgでは大まかには同じだが細部は変わってしまう
Erase and Replace
いわゆるinpainting
消した範囲に謎のものを出現させがち
その他、動画の物体トラッキングや音声のノイズ除去などが詰め合わされている
NovelAIDiffusionを支える技術
10/11に技術的に尖った話を書いたんだが世の中が根本的に画像生成AIの仕組みを理解してなくて「データベースの画像をつぎはぎする」とかでたらめなことばかり言うから「違うからね!」と基本的な話をやったのが10/22の解説
NovelAIDiffusionを支える魔法(10/22)
オリジナルのStable Diffusionはおよそ150TBのLAIONデータセットで学習されている
530万件、6TBのデータセットでファインチューニングしている
このデータセットには詳細なテキストタグがついている
(これがたぶんDanbooru由来)
モデル自体は1.6GBで、外部データを参照せずに画像を生成できる
学習中にサイズは変わらない(=から画像を覚えてるのではないよ!と言いたいわけ)
モデルの学習には3ヶ月掛けている
3ヶ月学習の処理を走り続けさせたと言う意味ではなく、途中経過を人間が見て問題点修正するための開発をして〜を繰り返してる
ゴールが論文を書くことではなく、いいモデルを作ってサービス展開で金を稼ぐことなので、途中で人力試行錯誤を挟んでもいいってわけ
モデルの学習はNVSwitchを介して連結された8枚のA100 80GB SXM4カードと、1TBのRAMを搭載した計算ノードを使用した
NovelAIによるStable Diffusionの改善(10/11)
CLIPのpenultimate layerの隠れ状態を利用する
nishio.iconpenultimate layerは「finalレイヤーの一つ前のレイヤー」
Stable DiffusionはCLIPのtransformerベースのテキストエンコーダーの最終層の隠れ状態をclassifier free guidanceのガイダンスに使う仕組み
Imagen (Saharia et al., 2022) では、最終層の隠れ状態の代わりに、penultimate layerの隠れ状態をガイダンスに使用する。
EleutherAI Discordでの議論
CLIPの最終レイヤーは類似度検索に使うための小さなベクトルへ圧縮する準備をする
そのために値が急激に変化する
だからその一つ手前のレイヤーを使った方がCFGの目的には良いかもしれない
実験結果
Stable Diffusionで最終の手前のレイヤーからの情報を使っても、多少精度は落ちるが、プロンプトにマッチした画像を生成することができた
nishio.iconこれは自明じゃない、なぜならImagenはLDMではないから
最終レイヤーの値を使った場合、色漏れが起きやすくなる
例えば「初音ミク、赤いドレス」で、ドレスの赤い色がミクの目や髪の色に漏れてしまう現象
アスペクト比バケット
既存の画像生成モデルには不自然な切り出しの画像をつくってしまう問題があった
nishio.icon人物画のくびがないとかのこと
これらのモデルが正方形画像を生成するように学習されていることが問題
ほとんどの学習元データは正方形ではない
バッチで処理する時に同じサイズの正方形に揃っていることが好ましいので元データの中央だけ取り出して学習させる
そうすると、たとえば「王冠を被った騎士」の絵は頭と足が切り落とされて肝心の王冠がなくなる
https://gyazo.com/13aa293442bfe496be831c2c15fd1e69
これによって人間が頭と足のない状態で生成されたり、剣が柄と先端のない状態で生成されたりする
小説生成AIサービスの付属サービスを作ろうとしていたので、これでは全然ダメだった
また「王冠を被った騎士」の王冠がない状態での学習はテキストと内容が不一致でよくない
センタークロップの代わりにランダムクロップにするのを試したがわずかに改善するだけだった
Stable Diffusionを色々な解像度で学習させることは簡単だが、画像サイズがバラバラだとバッチにまとめられないのでミニバッチ正則化ができず、学習が不安定になる
そこでバッチ内の画像サイズは同じで、バッチごとの画像サイズは異なるようなバッチ作成を可能にする実装をした
それがアスペクト比バケッティング
アルゴリズムをざっくり言えば色々なアスペクト比のバケツを用意しておいて、一番近いアスペクト比のところに画像を入れる
多少のズレは構わないよねということ
少しズレる分はランダムクロップする
ほとんどのケースで32ピクセル未満の削除で済む
トークン数を3倍に拡張
StableDiffusionのトークン数は最大77
75にBOSとEOSをつけたもの
これはCLIPの制約
そこでプロンプトを75、150、225のいずれかに切り上げ、75トークンごとに分割し、個別にCLIPに通して、ベクトルを結合する
ハイパーネットワーク
2016年にHaらが提案した同名の手法とはまったく関係ない
nishio.icon知らずに名前をつけてかぶったんだな
大きなネットワークの中の複数のポイントから小さなニューラルネットを使って隠れ状態の修正に使うテクニック
プロンプトチューニングよりも大きな(明確な)影響を与えられるし、モジュールとしてつけ外しできる
nishio.iconこれはエンドユーザが部品として認識してつけ外しすることができるスイッチを提供できることがサービス提供上のメリットであるということ
小説生成AIをユーザに提供してきた経験から、ユーザに機能切り替えスイッチを提供することに関してユーザが理解できること(とおそらくユーザの満足度向上につながること)がわかっていた
https://gyazo.com/4ba1538c98f240966cbc4120215db499
パフォーマンスが重要
複雑なアーキテクチャだと精度が上がるが、それによる速度低下は本番環境で(実際にAIをエンドユーザが触るサービスとしたときに)大きな問題になる
当初は(小説生成AIですでに試していたのと同じように)埋め込みの学習を試みた
これはTexual Inversionに相当するもの
しかしモデルが十分に汎化できなかった
そこでハイパーネットを応用することにした
色々試した結果、クロスアテンション層のKとVの部分だけに触ることにした
U-netの他の部分には触らない
浅いアテンションレイヤーが過学習するから学習中にペナルティを課す
この方法でファインチューニングと同様かそれ以上の性能を発揮できた
対象概念に対するデータが限られているときに特にファインチューニングよりも良い
オリジナルのモデルが保持されたまま、ハイパーネットが潜在空間のデータにマッチするスパースな領域を見つけられるからだと思う
同じデータでファインチューニングしようとすると、少ないトレーニング例に合わせようとして汎化性能が落ちてしまう
nishio.iconたぶんモデル全体のファインチューニングでは自由度が高すぎて、全体の重みで少しずつ学習データを表現しようとしてしまうのだろう
アテンションの調整だけに限定したことで「条件ベクトルによってデノイズする仕組み」はたくさんのデータで学習したまともな状態のまま温存しつつ、それに入力するベクトルが単なるtransformerが作るものよりもドラスティックに変化するようになる、ということかと
1枚の画像とテキストプロンプトを元に新しい画像を生成する仕組み
入力するものはStableDiffusionの img2imgに似ているが、img2imgではできないような画素の大局的な変更ができるのが特徴
https://gyazo.com/ded80c6786c8a03b034121c7e7c793ffPDF どういう仕組みか?
https://gyazo.com/62f14b20e57c5aea68ef4c72e0269af7
StableDiffusionは大まかにいえば「テキストを入力として画像を出力する、テキストと画像のペアで学習する」
だが、箱を開けてみると中にはフリーズされたCLIPが入っていて
テキストは埋め込みベクトルの形になってからLDMに渡されている
SDの学習とは埋め込みベクトルeと出力画像xを固定して、ロスLが最小になるようにLDMのモデルパラメータθを更新する作業
https://gyazo.com/91545820622700ae4ba48769e2685776
Imagicは3ステップに分かれている
1: まず画像とモデルパラメータを固定して埋め込みベクトルを最適化
ここのロスはStableDiffusionと同じ、DDPMの普通の定義
2: それからその埋め込みベクトルにを固定してモデルパラメータを最適化
(高周波成分を保持するための補助ネットワークが付け加えられている)
3: eとeoptを線形補間して新しいLDMの入力にして画像を出力する
図解
ステップ0
https://gyazo.com/1328e4f076205f6937e2f97086c19bc5
ケーキの写真と「ピスタチオケーキ」というプロンプトが与えられている
もちろん「ピスタチオケーキ」というプロンプトから作られる画像は与えた画像とは全然別物
ステップ1
https://gyazo.com/2f6bdf14c72b0623d4f45bd9ac89a664
出力される画像が入力画像xに近くなるように埋め込みベクトルeを更新する
この図の画像は似過ぎだと思う
(論文にこのときの画像が明確には示されていない、だいたいこんな感じとは書いているが後述の補助モデルの影響も含んでそうに見える)
ステップ2
https://gyazo.com/e6794fbaf4198641b9d9acf04de66f94
補助モデルを組み合わせてeoptから生成した画像と入力画像xとの差が小さくなるようにモデルパラメータθを更新
このとき補助モデル部分がLDMでは表現できない細部を学習して吸収するので、ほぼ同じ画像になる
補助モデルは高周波成分を保持するために付けられている
「細部がよく保存されてる!」と感じるのは、このネットワークがLDMでは保持されない高周波成分を保存してるから
LDMは8×8の画素を1ピクセルに潰してしまっているので画像で与えられた情報の高周波成分は失われる
細部はVAEのデコーダが復元してるので、それでは画像で与えた個人の顔を保持することはできない。補助モデルが差分を吸収する
ステップ3
https://gyazo.com/c816daacb1972684d04fc7e8d0bf1cdc
この新しいモデルが生成する、1次元の空間の中のどこかに「得たいものに割と近いものがある」と主張している
ここでは「小さい空間なら平坦とみなして良いだろう」という仮定が入っている
混合係数0.7くらいが良さげとの主張
まあこれは写真でやった場合の話で、僕がNovelAIで使ったアニメ絵で実験したら0.9でもほとんど元画像と同一(背景色が違うくらい)だった
考察
img2imgと違ってダイナミックな変化が起きるな?と思っていたがそれはそう
img2imgと違って与えた画像を後で画像を生成するときの初期値に使ったりはしていない
img2imgでは与えた画像をダウンスケールして(VAE encodeして)それを初期値に絵を描いてる
目の悪い人が元絵を参考にしつつ絵を描くみたいなもの
なので赤い服の絵を渡して青くしろというのは無茶
Imagicは赤い服の絵を渡して「これが青い服の絵です」と言う
埋め込みベクトルの更新で「青い」という単語の意味が『赤い』に動かされる
その上で与えた「赤い服の絵」が再現されるようにLDMを更新する
そして「青い」の単語の意味を『赤い』から『青い』に戻す
顔などの高周波成分が保存されているのは、普通にSDした場合に消し飛ぶような顔の詳細を「補助モデル」が吸収しているから
なぜアニメ絵で0.9でもほとんど元画像と同一(背景色が違うくらい)という現象が起きたか
写真でも同じように「変わってほしい対象物ではなく背景が変わった」というケースがある
@npaka123: うちの猫を Imagic Stable Diffusion で寝かせようとしたら(a cat is sleeping)、猫は変わらず、寝室っぽいとこに移動した https://gyazo.com/fa771749f4acae0d83a659c61c67237ahttps://gyazo.com/82e5fd5bdcbc9ecffc35ef543dc73e1b
補助モデルが対象物のほとんどの情報を吸収したんじゃないかな
顔同様の「LDMの外で保持すべき情報」とみなされた
このアルゴリズムは何が変化させたい対象物であるかを判断してない
画面の大部分をしめて、SDがプロンプトから高確率で出せないような対象物は「SDで出せないから補助モデルで吸収しよ〜」となる
Aesthetic Gradient
/ɛsˈθɛt.ɪk ˈɡɹeɪdiənt/
https://gyazo.com/45c6ce5f020171485b09f1355715ece5PDF ユーザの美的感覚を抽出してパーソナライズに使おうという研究
仕組み
テキストプロンプトをCLIPのテキスト埋め込みでベクトルにしたものc
StableDiffusionのデフォルトなら768次元ベクトルになる
そのプロンプトに対応しているユーザの好みの画像N枚のCLIPの画像埋め込みでベクトルにしたものの平均e
ベクトルを正規化しておけば内積が類似度としてみなせる
なのでeだけ取っておけばCLIPのテキスト埋め込み部の重みを勾配降下法で最適化できる
学習率1e-4で20ステップくらいでよい
考察
CLIPで各トークンがどのようなベクトルに埋め込まれるのかを微調整する手法
Textual Inversionでは意味のないトークンにがっつり意味を与えていたが、この手法は既に意味を持ってるトークンのベクトルをユーザの好みの方向に少し寄せるだけ、あまりかけ離れたものでは(学習回数も少ないので)上手くいかないと思う
そのかわり学習はものすごく軽い
TIと違って本質的に複数単語OKな手法であるところも長所
長めのプロンプトから2N枚画像を作って、そのうちの好みなN枚でAGを作るとかすると良いのかも
画像はCLIPでベクトルに変換してから使うのでサイズ調整とかが必要ないのも長所か
目的関数がCLIPのそれなのでCLIPのタスクである画像と文章の類似度判定に有用でない特徴は無視されそうな気がする
=文章に現れないような特徴が無視されそう(たかだか768次元しかないし)
一方でベクトル調整で得たいのは「文章でうまく指示できないような好み」だと思うので、どうかなー
「文章で表現することは可能だが人間がそれを上手く表現できてない」系に有用かな
---
追加
-----
この1ヶ月のダイジェストを紹介するために
に一旦目を通そうという活動をしてるのでメモをここに書きますnishio.icon
こっちでもweekly_idobata_newsみたいなのやりましょうかnomadoor.icon
HyperNetwork
11/3「NovelAI Aspect Ratio Bucketing」がMITライセンスで公開
11/2 Runway Frame Interpolation
「プロンプトに絵文字が使える」
学習データが豊富にあるとは思えないのでUnicodeの文字説明にフォールバックしてるだけではnishio.icon
SMILING FACE WITH SUNGLASSES,😎 / GRINNING FACE WITH SMILING EYES,😁
https://gyazo.com/5f6355ea191fb578c28cbbafa01a0601https://gyazo.com/14531b9532c0c6deebdf16fe79c8a03c
UnicodeNameをそのまま横流ししてるわけではなさそうですねnomadoor.icon
code:python
print(clip.tokenize("😁"))
code:output
tensor([[49406, 4821, 49407, 0, 0, 0, 0, 0, 0, 0, ...
たしかに1トークンになってたnishio.icon
In the future, you won't buy artists' works; you'll buy software that makes original pieces of "their" works, or that recreates their way of looking at things.
未来には、アーティストの作品自体を買うのではなく、そのアーティストの新しい作品を生み出すソフトウェアを買うようになるでしょう。別の言い方をすれば、そのアーティストの物の見方を再現したソフトウェアです。(西尾訳)
"by artist"
画家を指定する場合には"by artist"をつけた方が(画家自身などの写真が入らないので)スタイル指定として効きやすいという主張
Runway「Infinite Image」
outpainting
Danbooruが公開の場でやってバッシングの対象になったので、個々人がローカルでやる流れ
-{3d}
明らかに自分が著作権を持ってないリソースを使ってファインチューニングをしてモデルを公開することによって承認欲求を満たそうとするムーブが盛んに
エルデンリング、ファイナルファンタジー、デスノート、ナルト、トロンレガシー…
中でも注目なのはDisney Diffusion。最強のDisney法務がどういうアクションを取るか楽しみ
Disneyと名前を出して投稿してる時点で、権利のないパブリシティにただのりしてるとか、ブランド価値の毀損をしているとか、いろいろ叩きようがありそう
今はこれくらいな感じだけど、今後クオリティが上がっていく中で、Disneyが手をこまねいてるとは思いにくいので、どこかのタイミングで誰かが見せしめ処刑されるのではないか
DiffuserベースのDreamBooth
「細部がアンコントローラブルな画像」で生計を立てるには、巨匠とか第一人者とか芸術家とか、特殊なポジにならないとダメ
元素法典 第二巻が公開
リークモデルを使ったプロンプトが混ざっているらしく、そのまま入力してもNovelAIの方にはうまく反映されない
(Twitterとかに上げた画像だと情報消されてるので見えないですが)
画像貼り付けてもアップロードされないので安全です。
ぜひ使ってみてください!
https://gyazo.com/2967e17fb86bd9a7e0bb6ff376cc2371
この機能、自分のアプリにも欲しいなぁ
Scaleを低くするとふわっとした印象になり、高くするとパキッとシャープになります。デフォルト値のScale=11くらいがバランスが取れている感じがしますが、絵柄を変えたいときはScale値を少し調整すると良さそうです😊
https://gyazo.com/1af1048ca82198919d3208d38c67e0ee
プロンプトの全体にベクトル強化や弱化をかけてるのと同じだよ
Promptia マガジン
Stable Diffusion Prompt Book
こういう記名でガイドブックを出す人、単なる事例の雑多な集積ではなくちゃんと比較実験とかしてるならとでも有益そう
ソフトウェアエンジニアの世界と同じで「世界中で同じプログラミング言語なんだから、日本語の情報は統計的に質が低いだろ」的状況が発生する
着彩ワークフロー、img2imgで着彩してからズレを直す涙ぐましい作業
ユーザが使える形で作られてないだけで、線画を維持したいなら線画をマスクにして拘束条件つけてinpaintすればいいだけなんで、ニーズがあるならそのうち誰か作るんじゃない?
img2tiles
元絵をimg2imgのソース画像にするんだろうね
ほへとプロダクション
NovelAIで生成した画像をキャラクターとして使ったVtuber事務所
「世界線カメラ」という開き直りが好きnishio.icon
Fast DreamBoothなに?
MetaHuman
キャラクターの再現性にこれを使うらしい
アニメ風はできなさそうな気配
StableDiffsuiionが利用できるサービスの1つ、「getimg.ai」にtext2maskが追加
webui by automatic1111にも実装されています
おいヤミ術式
えっ、何これ、どういうこと?
その発想はなかったwogikaze.icon
新しいDreamBoothとはこちらとこちら。モデルを破壊せず、数百の概念も学習できる上、1時間程度で学習できるというすごいDreamBoothが公開されて話題になりました。
複数読み込み機能はShivamShriraoさんのdiffusers改造独自の機能ですが、やっていることは既存機能のprior preservationを複数実行しているだけな気がします(詳細は読めてない)
prior preservation使うと学習効果を限定出来るので、そのおかげで複数概念を学習できてるのかなと。
10/25
u/YacbenのFast DreamBooth
NAI_magic_wand
まあ独立WebアプリよりChrome拡張の方が色々便利だよね、発展に期待
SD 1.5は十分にトレーニングされたモデルのため、CFGスケールを通常より上げることができる
10/24
その後あんまり話題に上がらないですね、良い使い方を発見できなかったか?
既存のOutpaint用のスクリプトよりもinpaintで外側を生成した方が良いという主張
本当か?このサンプルだと端が暗くなってるから上手くいったんじゃない?
というわけでもなさそうだ?
もちろんそういうのが欲しいユースケースでは有用だろうけど、一般論としてoutpaintで端が暗くなったら困るよね
あー、なるほど、コードを書き換えてステップ数の上限を引き上げてるのか
外側のノイズが内側の情報に押し出されてなくなるまでガッツリとデノイズを繰り返すわけだな、なるほど
10/23
Phenakiがオープンソース化 テキストから2分の動画が生成できる
バッハの蛇口
コンテンツの電子的複製が可能になった時にも似たような議論になった
結局、何かがイージーになれば、イージーでないところに移動するだけの話
環境変化に適応できない個体だけが取り残される適者生存の世界
10/22
ピースサイン
10/21
RunwayがStable Diffusion 1.5を出してStability AIから一時削除申請が来るなどしていたが取り下げられた
共同研究の成果物の権利範囲をきちんと把握してなかったミスだろうな
Runwayの側としては知名度向上のチャンスなので合理的
Stability AI側は新しいVAEをリリース
FILMで補間
AIとコラボして神絵師になる 論文から読み解くStable Diffusion
中学生でも理解できることを目指し、わかりやすい説明で紹介した解説書です
10/20
Stable Diffusion 1.5vが公開
NovelAIが画像生成AIの仕組みについてのブログを公開
Imagic
リーサ・リサージュ・ヤスミンさんが先日話題になったAIですごい画像編集ができてしまうImagicが使える日本語のcolabノートブックを公開されました
Runway Inpainting
ちゃんと動いてる?よくわからない
clipsegしてinpaintしてる
それはWebでは公開されてないのかな
NovelAI流出モデルがずっと一部の人たちには使われている状態のようです。/違法なのでやめましょう。
なんで違法なんだっけ?
Imagic+WaifuDiffusion
Waifu DiffusionのDreamBoothじゃない追加学習
DreamBoothじゃない追加学習、何...
10/19
UniTune
Imagic同様に1枚の画像をベースにする手法、img2imgでは難しそうな特徴まで出せてるところもよく似ている
学習時にマスクを与えて、元通りに復元できるかどうかも評価関数に入れている
元々のSDが「ノイズからの画像生成しか学習させてないけど意外と穴埋めもできた!」なのに対して、こっちはちゃんと穴埋めの勉強をしてるってこと
@npaka123: うちの猫を Imagic Stable Diffusion で寝かせようとしたら(a cat is sleeping)、猫は変わらず、寝室っぽいとこに移動した https://gyazo.com/fa771749f4acae0d83a659c61c67237ahttps://gyazo.com/82e5fd5bdcbc9ecffc35ef543dc73e1b
promptの最後に,を増やします
www
NovelAIで()を使ってる時に起きるのもこの現象
10/18
@AbermanKfir: The combination of #dreambooth and embedding optimization paves the way to new image editing capabilities. Love it. Congrats on this nice work! @speakingtomato: (1/9) Friends! Today I want to share with you some details of the process of creating AI art. This tweet is for collectors, and who want to know what #AIArtwork looks like. https://gyazo.com/9be6f18b2e47d2769ecc3bf6d18b31abhttps://gyazo.com/d19a4e9e04155dea46b82830321d5368
最終的に10240×13312px
拡大してinpaintしたり、幾つも生成した中の部分的に良いものを取っておいてPhotoshopしている
特に珍しいことはしてない、そうですよねという感じ
この画像がわかりやすいね
https://gyazo.com/c51e94ef2f7dc8bc4a55884ff6ad4c36
10/17
ついにDreamBoothできる人がかなり増えそう。DreamBoothができる2つ目のGUIが登場。Windowsで10GB VRAMで実行できるDreamBoothができるGUIが登場。
https://gyazo.com/be5cb60ceb1f33ce32c335d8f8c08fd1
nekopara vn anime art blue hair cat girl nekomimi dress vibrant nebula sky
https://gyazo.com/9c10d7a5a413fbb4cc2689c30e54bf2fhttps://gyazo.com/4ccfaab9887ae2b0cc484dcebb202ebchttps://gyazo.com/ac1735d637bfe09c6692169232246d42https://gyazo.com/87635703967432dd2034ec5dfc6ffe86
似てはいるが、かなり強い元ネタに引っ張られてそうな気配(髪の色のblueを強調してもぜんぜん青くなってくれない)
nekoparaでイメージ検索した、なるほど
@_akhaliq: Prompt-to-Prompt: Latent Diffusion and Stable Diffusion implementation with @huggingface diffusers is out https://gyazo.com/0b1c04ece21a9b9be5f0d4e01c28a0b2
@tugot17: Cross-attention control is such a great tool. It lets you edit the image directly with prompts. You can change the target of the image or change the whole style, preserving the content. 1/4
https://gyazo.com/f0fb2131ba73e48cc4f2023a3513b973https://gyazo.com/81351b56e4cc128b36e8b21b4c340d3a
絵が描けなかった野良作家が自作に絵を入れられるようになった感激は、ボーカルを入れられなかった野良作曲家がボカロで歌を入れられた感激と、同質のものだと思います。
悪用しなければ良いものなんですよ。
10/17
NovelAIの魔導書「元素法典」が話題に
中国で作られていたドキュメントが日本で話題に
NovelAIのためのものだと明記しているにも関わらず、NovelAIで実装されていない構文が使われている
流出モデルを使っているのだと思われる
10/8
NovelAI 流出を認める
10月7日に4chでNovelAIのコードやモデルがtorrentファイルとして公開され高速でwebui by automatic1111に実装された...
@_akhaliq: Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis propose a training-free approach to incorporate language structured for compositional text-to-image synthesis
https://gyazo.com/d14717d84f8bf3f6421d4251d00b65d1
Stable Diffusionが複数の対象を指定されたときに混ざった概念を出力しがちな点の改良
結局のところアテンションの重みが画面上の位置の関数ではないので、同じような粒度の対象物に対するアテンションがあると画面の全域においてその混合したベクトルで条件づけられたデノイズが行われるので〜
という点をどうやって解決しているかはちゃんと読んでいない(まだ手軽に使える形にならなさそうだし)
細部書き込みup
txt2imghd is a port of the GOBIG mode from progrockdiffusion applied to Stable Diffusion, with Real-ESRGAN as the upscaler. It creates detailed, higher-resolution images by first generating an image from a prompt, upscaling it, and then running img2img on smaller pieces of the upscaled image, and blending the result back into the original image. 生成した画像をupscaleしてから細かく刻んでimg2imgのエサにする、結果をブレンディング
10/7
https://gyazo.com/068c63decaa0e8de151cb6f4df0ae8a7
モデルはなんなのかな?わからなかったからNAIに入れた
https://gyazo.com/f1af6d5e32328a7f603e3c18b095b40f
動画を画像連番に書き出して1フレームだけ、AIで作ったアニメ風イラストに手動で差し替えます。
そしたら、後は1フレーム目を元に自動で全フレーム差し替えてくれるという仕組みです!
10/6
Compositional Generation using Stable Diffusion. Our proposed Conjunction (AND) and Negation (NOT) can be applied to conditional diffusion models for compositional generation. Both operators are added into Stable Diffusion WebUI! Corresponding pages are as follows: Conjunction (AND) and Negation (NOT).
NovelAIも複数行プロンプトの時はANDなんだっけ
条件付きノイズ推定の合成演算を定義しているだけなのでリーズナブル
8GB未満のVRAMでDreamBooth, 6GB未満のTextual Inversionが可能に
なんで盛り上がってないのかと思ったらこれかw
The drawback is of course that now the training requires significantly more RAM (about 25 GB).
確かに一度見て即座にスルーした気がするw
squarize-images-updated
トレーニングデータの準備の際、不完全なトリミングやアスペクト比になってしまう問題がありますが、こちらのコードは自動でインペイントし、トレーニング用正方形画像にしてくれます。
ええー、どうなんだそれ…
いまはNovelAIの公開したやつがあるからいらないかな?
イラストを作るのも、1枚絵から適切なリギングをするのもどっちも機械学習だし、すごい時代になったなと思った。
https://gyazo.com/a2ea6cb5570c1bb517ea4f25fd4a18cdhttps://gyazo.com/1d8044f1adadbdef75493e9a69bac90e
10/6
Midjounrey質感をStable Diffusionで再現
{subject}, stunning,, highly detailed, 8k, ornate, intricate, cinematic, dehazed, atmospheric, (oil painting:0.75), (splash art:0.75),(teal:0.2),(orange:0.2), (by Jeremy Mann:0.5), (by John Constable:0.1),(by El Greco:0.5),(acrylic paint:0.75)
https://gyazo.com/4359c2a9e92a24a7e4e06df22c802608
好きではないnishio.icon
https://gyazo.com/4ba1fe7049960fe9b59c3e0a8447da47
まー、そういうテイストだよね
DreamBooth
@akira702
これ全部、なにも手直ししてないしガチャ引き直ししていないの。
https://gyazo.com/a1869a049bb130a2fcd13a38f22e9daehttps://gyazo.com/32cbe8645ff48310b870c99095dca9ebhttps://gyazo.com/7571980dc2c2434b3e0d3f9285dd7102https://gyazo.com/7b0603e7953c18b1d884114136dbfcb3
9/30までやりたいのだけどもう疲れたので続きは明日nishio.icon
お疲れ様ですwogikaze.iconnomadoor.icon
やっぱり流れ速すぎで笑った
今から勉強する学生さんは大変ですね
抜け漏れtypoあったら教えてください
https://gyazo.com/162727fc1427f156ac8fd861fca962ad
Stable Diffusionはこの仕組み
10/3
NovelAIDiffusionリリース!
NovelAI Diffusion Anime image generation is uniquely tailored to give you a creative tool to visualize your visions without limitations, allowing you to paint the stories of your imagination.
https://gyazo.com/13ca6724d7ef341bc5db72caeb515019
やっと辿り着いたwnishio.icon
Stable Diffusionではプロンプトが77トークンで打ち切られていたが、NovelAIでは3倍の231トークン
Stable Diffusionでは学習データが正方形にトリミングされていたが
NovelAIの工夫によって任意のアスペクト比での生成が可能になった
アスペクト比は構図に強く影響する
code: NAI Curated
girl, blue eyes, blue long hair, blue cat ears, chibi
https://gyazo.com/ec303056563dd0308f6530af5549d053https://gyazo.com/a8a40c57789dea0cd4e523c2ed84999chttps://gyazo.com/e34a2583abf1105d02ba614f08c2877d
追加学習によって生成される絵の分布が著しく偏っている
得意分野「アニメ調の女性」に対して圧倒的強さを示してSNSが騒然となった
ここに記録されているTweetがほとんど「アニメ調の女性」なのが特徴的
多種多様な「絵」の分布のうちの狭い領域に対して特化してリソースを注ぎ込んだことにより、その領域においてユーザ価値が分水嶺を超えた
ブルーオーシャン戦略
学習に使われているデータセットに対して議論が巻き起こった
学習にDanbooruという「有志が画像にタグ付けをして、タグから画像を探せるようにしているサービス」のデータを使った
賛否両論(というか少なくとも日本語SNSでは強い否定的意見が大きな声で発信された)
否定的意見: Danbooruは無断転載サイトであり、違法だ。違法なデータで学習したAIは悪だ、敵だ
ところでDanbooru自体は元画像に対する出典を明記し、リンクを貼っているので、この「無断転載」に違法性があるのかどうかはなかなか難しいところ
https://gyazo.com/18161037994ef05c4645892aeac400f7https://gyazo.com/f06398234bfe68c7bda296b4c332b7ed
フェアユースかどうか
Google検索で検索結果にGoogleのサーバに複製された画像キャッシュが表示されることとの関係
もちろんユーザ投稿なので、中には違法にアップロードされているものもあるかもしれない(例えばオンラインで公開していないデジタルコミックからの転載など)
でもそれに関してもDMCAに則って運用してればサービス運営主体は罪には問われないわけで。
被害にあった人からは蛇蝎のように嫌われているだろうね
世界では「Danbooruを使うことに何か問題が?」という感じ
@MutedGrass: ・StableDiffusion…LAION 5B にDanbooruの画像URLがある ・WaifuDiffusion…Danbooru 2021 データセット使用を明言
・NovelAI…Danbooru利用を明言。
・ミッドジャーニー…WaifuLabsとコラボしてSafebooru由来のデータを使う(予定)
つまりみんなDanbooru使ってるやん! となります
つまりこれは日本語圏における集団極性化現象
nomadoor.icon
https://youtu.be/rB7j6LXHObU?t=4027
1:07:07 ~ 1:15:40
イラスト界隈にいなかった人間が入ってきた
ただ、彼らはその界隈が何を大切にしているかを知らない
(イラスト界隈では)作家へのリスペクトやその方法
教えてもいないのに守れというのはエゴ
我々も他の界隈に行ってすぐできるものではないし、ミスするのは仕方ない
もともといた人間と新しく入ってきた人間とで、冷静にそれを共有しないといけない
二次創作も許される許されないの違いはリスペクトのありなしだったりで、日本のコンテンツ業界において(に限らず)作家へのリスペクトというのは大きかったんだなあと、AIが入ってきて改めて気づいた形
nomadoor.iconはどちらの界隈の人間とも言えないですが、どちらの凄さも理解し(ようとし)ているので、お互いの美徳をうまく掛け合わせていきたいなあとぼんやり思ってます
9/22
積極的に発信していた人の自宅に変な人が来た事例