3D-LLM - work4ai

3D-LLM

3Dの世界にLLMを注入する

3Dデータとキャプションが合わさったデータセットはほとんどないので作る

GPTなどのLLMを利用して、3Dのシーンと言語のプロンプトを交互に生成することで、3D言語データを作成する

https://gyazo.com/0da979b8d46d86a80a32dd8b6530167e

bing.icon具体的には、まず、LLMに、3Dのシーンの説明文を入力として与えます。次に、そのモデルが生成した言語のプロンプトを、3Dのシーン生成モデルに入力として与えます。このようにして、3Dのシーンと言語のプロンプトを交互に生成することができます。

わかりそうでわかんない…nomadoor.icon

800K個の3Dオブジェクトと1K個の3DシーンからなるObjaverseというデータセットを作成

bing.icon3Dのシーンをレンダリングして、CLIP等を使い特徴を抽出、それを2D VLM(e.g. Flamingo)に入れることで、3D-LLMを作る

このままデジタルツインに応用されていきそうな技術だnomadoor.icon