Zero-Shot Text-Guided Object Generation with Dream Fields(wip)
Ajay Jain + 2021
paper
#NeuralRendering #CLIP #keitotakaishi
どんなものか ( 要約、システムのI/Oなど)
NeuralRendering(NeRF) + CLIPを組み合わせ,教師なしで自然言語記述のみを用いて多様な3Dmodel生成(色+形状)を実現するDreamFieldsを提案
先行研究と比べてすごいところ、貢献
https://gyazo.com/daff4b1518563c87129130b505d07076
背景:幾何学的制約を追加することなく、ナイーブにNeRFのシーン表現とテキスト監視を最適化すると(つまりview監督なしで)、Dream Fieldsは大きなアーチファクト
忠実度と視覚的品質を向上させるため、スパース性を誘発する透過率正則化、シーンバウンズ、新しいMLPアーキテクチャを含む簡単な幾何学的事前分布
背景:マルチメディアアプリケーションは多種多様なコンテンツを必要としている.先行研究では,3D データセットを活用し,点群,ボクセルグリッド,三角メッシュ,陰関数形式で形状が生成されている.しかし,ラベル付けされた3D形状データセットが少ないため、いくつかのオブジェクトカテゴリしかサポートしていない.
本手法は、自然言語によるプロンプトを用いるため、オブジェクトのプロパティを指定するための表現力が豊かで、オーサリングが容易 → computational creativityぽい
NeRFによるNeuralResentationであるため,解像度が高く,トポロジーフリー
手法
Loss Function
1. 損失関数(7)の最小化
g : ViT
h : Transformer
https://gyazo.com/495c5fa2cb317384c9b208bc4e6626a6
L_clipの問題点
NeRFの再構成には十分多くのview監督が必要.しかし今回のような式(7)だけではアーティファクト(物体の連結部分が保障されない(floatingと表現されている),画面全体がぬりつぶされてしまうなど)が生まれてしまう( Nerf++)
Data Augumentaion
異なるカメラポーズの外挿をサンプリングすることで、3Dデータの補強をサポート(いまいちよくわかっていない)
Localizing objects and bounding scene
一般のNeRFはシーンの重心が中心にきてしまうが,CLIP内で学習された画像の3Dモデルは常に重心が中心に来るかはわからない
シーン中心から離れた場所まで密度を配置出来るように改良(学習中に3Dオブジェクトの原点を推定し,光源をシフト )&離れすぎないように密度σθをマスキングしてシーンを立方体の中に閉じ込める→ 参考になるかも
検証方法
定量評価:生成されたオブジェクトとそのキャプションの整合性、およびシーン表現の重要性を評価
定性評価:Dream Fieldsが構成的に一般化できるかどうかを評価
アブレーション:スパース性正則化器の寄与,対照的な表現分析
評価指標
NeRF:(教師3Dはない)PSNR,LPIPS(62)
DreamField:レンダリング画像が真のキャプションとどの程度一致しているかを測れるCLIP R-Precisionメトリック(41)
実験条件
解像度:168 x 168
仰角30◦、仰角45◦
ハイパラ:COCO(単一のバウンディングボックスアノテーションを持つもの)はの評価セットから20-74の異なるキャプションのセットで知覚的品質が手動で調整される
定量評価
https://gyazo.com/ba933930daac380c301d751bddccdbdf
定性評価
text to imageで使用されたキャプションを使用
概念の印象的な合成を生成し、いくつかのカテゴリにわたってプロンプトの細かいバリエーションをサポート.
例えば、生成されたカタツムリは、目の茎が体ではなく殻に付いており、生成された緑の花瓶はぼやけているなど,幾何学的な細部は現実的でないものもある.
https://gyazo.com/3f8cd33b249cc592648ab3c3a5b59377
議論、課題
生成までに多くのイテレーション(2K-20K回)
Meta-learning (53)or amortization (42)
CLIPは複雑なシーンを上手くコード化出来ない(1, 29)
学習済みモデルを使用しているので,バイアスを受ける
次に読むべき論文
DeepDream:Inceptionism: Going deeper into neural networks
Reclip: A strong zero-shot baseline for referring expression comprehension.
Multimodal neurons in artificial neural networks.
#tech_survey