3D-LLM
https://arxiv.org/abs/2307.129813D-LLM: Injecting the 3D World into Large Language Models
3Dの世界にLLMを注入する
3Dデータとキャプションが合わさったデータセットはほとんどないので作る
GPTなどのLLMを利用して、3Dのシーンと言語のプロンプトを交互に生成することで、3D言語データを作成する
https://gyazo.com/0da979b8d46d86a80a32dd8b6530167e
bing.icon具体的には、まず、LLMに、3Dのシーンの説明文を入力として与えます。次に、そのモデルが生成した言語のプロンプトを、3Dのシーン生成モデルに入力として与えます。このようにして、3Dのシーンと言語のプロンプトを交互に生成することができます。
わかりそうでわかんない…nomadoor.icon
800K個の3Dオブジェクトと1K個の3DシーンからなるObjaverseというデータセットを作成
bing.icon3Dのシーンをレンダリングして、CLIP等を使い特徴を抽出、それを2D VLM(e.g. Flamingo)に入れることで、3D-LLMを作る
このままデジタルツインに応用されていきそうな技術だnomadoor.icon
3D VLM