画像・動画のAI編集タスク
拡散モデル等の生成AIによって生まれた・改善された画像・動画編集の下流タスク
inpainting / outpainting
画像内に周囲に合うように新しい要素を生成する
画像外に自然に合うように風景を描き足す
Subject-Driven Image Generation / ID転送
ランダムではなく、指定した主題を生成させるための技術
e.g. LoRA / IP-Adapter
face swap
顔を参照された顔と入れ替える
e.g. ReActor
顔転送 / ID転送
face swapは仮面を作って別人につけてもらうだけだったが、こちらはその人の特徴(ID)を学習し、より柔軟に適用させる
Subject-Driven Image Generationに含まれることも多い
e.g. InstantID
ポーズ転送 (pose transfer)
人・動物のポーズだけを指定して画像・動画を生成させる
e.g. ControlNet Openpose
モーション転送
物体の動きを指定して動画を生成させる
ポーズ転送では等身が違ったりすると自然な動画が作れないが、モーション転送はより柔軟であり、車の動きを動物の動きに置き換えるといったこともできる
e.g. MotionDirector
Human Motion Transfer
ポーズ(モーション)だけを指定して動画を生成させる
e.g. Animate Anyone
スタイル転送 (style transfer)
参照画像のスタイル(色彩、テクスチャ、パターン、筆遣い)を参考に画像を生成させる
e.g. RB-Modulation
構図転送
構図、物体の配置を指定して画像を生成させる
再配置 (Object Dragging)
画像内のオブジェクトの位置を移動させる
e.g. DiffUHaul
リップシンク
入力された音声に合わせて、静止画・動画の口を動かす
talking head
入力された表情の情報に合わせて、静止画・動画内の顔を動かす
音声のみ入力で、それにあった顔のアニメーションを生成するものもある
e.g. LivePortrait / EchoMimic
ライティング / リライト
仮想の光源を設置し、それに合うようにターゲットの光の当たり方を修正する
背景に溶け込むように前景のライティングを修正する
e.g. ClipDrop Relight / IC-Light
切り抜き (matting)
画像を"背景"と"前景"の2つに分ける
e.g. Rembg
セグメンテーション
画像内を複数の意味のある部分に分割する
画像内の特定のオブジェクトの形を識別する
e.g. Segment Anything
オブジェクト除去
画像・動画内の特定のオブジェクトを消し、その部分を自然に埋める
e.g. LaMa
超解像 (Super-Resolution)
低解像度の画像を高解像度に変換する
ボケた画像の細部や鮮明さを向上させる
フレーム補間 (VFI)
前後のフレームを参考に、その間のフレームを生成する
e.g. FILM
generative interpolation
前後のフレームを参考に、その間のフレームを生成するのはフレーム補間と同じ
ただし、生成する秒数が長く、アニメでいう原画から動画を作るような創造的な作業を行う
e.g. ToonCrafter