Sora
できること
静止画から動画生成
欠落フレームの生成
Much prior work has studied generative modeling of video data using a variety of methods, including recurrent networks,1,2,3 generative adversarial networks,4,5,6,7 autoregressive transformers,8,9 and diffusion models.10,11,12 These works often focus on a narrow category of visual data, on shorter videos, or on videos of a fixed size.
Sora is a generalist model of visual data—it can generate videos and images spanning diverse durations, aspect ratios and resolutions, up to a full minute of high definition video.
しくみ
https://gyazo.com/a9500e2050711ba6360cf4b5c6074c7d
soraはlatent spaceでtrainingして、latent spaceで動画を生成する
latent spaceの動画を生の動画に戻すのはvisual decoderが行う
その後その後表現を spacetime patchに分解する
このpatchがtransfomer tokenとして使える
ネットの大量データからLLMを作る、というアプローチに着想を得た
LLMの成功はさまざまな種類のテキストをtext tokenを使って統合したこと
Soraは映像でこれをやっている
text tokenに相当するものがvisual patch(視覚データのモデルを表現できることが知られている)
visual patchはいろんな種類の動画や画像で生成モデルをトレーニングするのにスケーラブル
https://gyazo.com/f1756db6fdc443349ad92562d32a9027
つまり、学習が進むほど品質が著しく向上する
解説
今までの画像生成は小さな解像度(256x256など)にトリミングしてトレーニングしていた
ネイティブ解像度にすると嬉しいことがあった
実用上任意のサンプリング解像度が取れる
多デバイス向けの対応ができる
程解像度でプロトタイプを作れる
出力重いから、大事基素.icon
フレーミングが良くなる
他人に見せる動画を見て学習してるんだからそうだろうね基素.icon
言語理解が良くなる
「キャプション - 動画」のセットが必要
Dalle3で作ったvisual to textを使ってキャプションモデルを作り、動画のキャプションを作る 説明的なキャプションモデルにすると、動画の全体的なクオリティだけでなく、fidelityも向上する GPTを使ってユーザーのpromptを詳細なキャプションに変換して動画モデルに渡す 生成した動画の拡張もできる
動画の時間を遡って拡張する
オチの動画から前の動画を作ってるってことみたい基素.icon
動画の前と後ろを拡張して無限ループの動画を作る
動画のスタイルをゼロショットで編集する
全く別の動画をシームレスに補完する
映画みたいだ基素.icon*2
2048x2048までの画像生成
スケーリングがうまくいっているので、物理世界が破綻しない
これがすごい基素.icon*2
ロングレンジのコヒーレンス
三次元的な一貫性
オクルージョン
時間軸ごとにキャラクターが変わったりしない
同じものを別カメラで撮影できる(Object permanence)
物売り的なアクションをシミュレーションできる
can sometimes simulateなので、できることもある、ぐらいだな基素.icon
これは難しいタスクだと思う
議論のセクションでも、ガラスの破砕などの基本的な物理がモデリングできてないと言っている
例えばデモの蝶々は水の粘性を全く感じてないから物理的には違和感がある
こういう表現をする作家もいそうだけどね
マイクラ世界を物理現実にシミュレートする
これはゼロショット編集とは違うの?
AIに視界を作ってもらってAIが作り出した都合の良い現実の中で生きるやつくるじゃん基素.icon
Contributors
@OpenAI: Introducing Sora, our text-to-video model. Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions.
Prompt: “Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.”
https://video.twimg.com/ext_tw_video/1758190624732512256/pu/vid/avc1/1280x720/UkX1I85YBuFLY26w.mp4?tag=12#.mp4