3D-LLM
3Dデータとキャプションが合わさったデータセットはほとんどないので作る
GPTなどのLLMを利用して、3Dのシーンと言語のプロンプトを交互に生成することで、3D言語データを作成する
https://gyazo.com/0da979b8d46d86a80a32dd8b6530167e
bing.icon具体的には、まず、LLMに、3Dのシーンの説明文を入力として与えます。次に、そのモデルが生成した言語のプロンプトを、3Dのシーン生成モデルに入力として与えます。このようにして、3Dのシーンと言語のプロンプトを交互に生成することができます。
わかりそうでわかんない…nomadoor.icon
800K個の3Dオブジェクトと1K個の3DシーンからなるObjaverseというデータセットを作成 bing.icon3Dのシーンをレンダリングして、CLIP等を使い特徴を抽出、それを2D VLM(e.g. Flamingo)に入れることで、3D-LLMを作る このままデジタルツインに応用されていきそうな技術だnomadoor.icon