絵は立方体
これはラーメンを食べる動画があったとして、時間軸をtに取るとこのような立方体に表せる。 https://gyazo.com/fc876c8c7de5185b35e9d343ce232d91
写真だとこの中の任意の面を取り出して画像にするわけだ。
まあでも絵というのは若干ここに厚みがあるんじゃないかと思っている。
https://gyazo.com/4bde9bb4d771ff37a6940462328558c6
この厚みの中にある特徴がマージされたようになるのがイラストっぽさなのではないかなあみたいに考えていた。
(時間方向の圧縮)
キュビスムなんかは形状の外周に沿って圧縮が行われており、人間の主観を再現しているのではないかと思った。
同じように、人間は時間の一点にフォーカスをあわせるみたいなことはせず、ある時間をぼうっと見ているのだと思う。
そしてときには「動作の中のいいところ」だけにピタッとフォーカスを合わせる。「瞬間を切り取る」みたいな表現になる
で、AI絵について。
PixivでAI絵はしばらく表示可にして絵を漁ってたんだけど、サムネはいいんだけど拡大するとなにかがつまらねえみたいになったら大抵AI絵、みたいなことが続いて腹立つなと思って最近非表示にしたのだった。
で、AI絵の特徴なんだけど独特のチープさで、なんかAVのパッケージみたいに顔と塗りだけ整った正面向きの似たような構図のものが大量にあるみたいな感じ
いずれ克服はされるんだろうけど、AIは本当に正面以外苦手だから試してみるといい
これはある意味で「つまらない絵とはなにか」という問いになっている気がした
AIの弱みなんだけど、完成したものを大量に食っているから、過程についての知識が存在しないというのがある
デッサンも取らないので普通に指の本数を間違えたり、尻に乳首を描いたりする
これについてはデッサンの弱さだけなのかなと思ったけど、本質的には絵から感じるメッセージの薄さなのかなと思った
絵描きは「女の子がラーメンを食べているところを描こう」と思ったときに、無意識にいくつかのシーケンスの中から選んでいる
ラーメンを食べるという動作の中で、どこを切り取れば魅力的に映るかをサーチしている
例えば猫舌なのかとか、食いしん坊っぽくがっついているかとか、汗をかいているとか、辛い!と言っていたりとか。どんなラーメンを選んだかもキャラクターの個性を表現する。また、どういう経緯でその店に入ったのか?どうしてその店なのか?誰かと来ているのか?店は混雑しているのか?孤独のグルメ的な感じなのか?
そういった、キャラクターのパーソナリティを表現する要素を、時間方向に圧縮して詰め込む必要がある。イラストの情報量という概念があるが、技法書では単にものがたくさん書かれていたりフリルがいっぱいだったりという物理的な量を表しがちだけど、そういう感じで情報量を稼ぐとパッと見の印象はいいけれども拡大して見たときにサムネ以上の発見はないということになる。
そうではなく、拡大したときにキャラクターのパーソナリティがわかるというのは大事だと思う。
AIは2次元の画像内の配置のことしか知らない
「置きに行った」感じで、絵にダイナミクスがない気がする
一連の動作の中から、なぜその動作を選んだのか、更にそこからどこにピントを合わせたか、というところに作者の作為が現れる
それはストーリーを構成しているといっていい
例えば、手を伸ばしたときにその先に何があるのか?とか、手のひらを自分の方に向けているか(防御しようとしているか)とか、その時の表情がどうかとか、絵の各部分はつながっていて、全体としてメッセージを構成する
AIもこれができなくはないんだろうけど、意図を表現できるほどにはまだ精度が足りないのと、プロンプトに与えるのって表面的な情報が多くなりがちなので使い手の練度の低さという問題もありそう
人間だと絵を書いていくなかで「ストーリーを発見する」ということもよくある。あとからタイトルを付けて意図を足すなんてこともあるけど。これはフィードバックループが成り立つことが前提となる。
midjourney系の場合このフィードバックループのUIが良くない。どんな意図を盛り込みうるか、というのをAI側が提案できるくらいでないと絵が面白くならないと思う
t2iの問題ではなくて、クエリを作ったときに前後のコンテキストを提案するみたいなステップが必要なのかもしれない。
顧客は自分の本当に欲しいものなのが何なのかわかってない問題とつながってそう
また、絵は前後が想像できるように書いたりする
AI絵は、それっぽく見えるときもあるのだが、基本的には静的な絵を出力している
絵から感じられる「時間の厚み」として知覚されるんじゃないかなと思った
人間が描いた絵でもなんかいまいちな絵とかはそういう、置きに行った感があるんじゃないかなと思った
「置きに行った」という表現をよく使うけど、自分の中では静的な表現でダイナミズムが感じられないということな気がする
力がかかっているかどうか、動きや速度に曲線的なものが感じられるかどうか。リニアでないかどうか。アフィン変換で十分な表現になっていないかどうか。
例えば動作中の絵を見たときに、0.5秒前と0.5秒後を人間は想像しているんじゃないかと思っていて、さらに言えば動きの始点と終点も自動的に想像しているのではないか。
アニメーションの「お化け」は、複数フレームの平均を取ったものと見ることもできるのだけど、そのお化けの動き方向の長さ(=速度)が、次フレームの位置を概ね想像させるというところが大事なのではないか
そして人間の目がイーズイン・アウトを経験則から自動的に想像するのではないか
それだけだと速度がリニアな可能性もあるので、そのフレームが加速中なのか減速中なのかというヒントが必要かもしれない