画像・動画のAI編集タスク

拡散モデル等の生成AIによって生まれた・改善された画像・動画編集の下流タスク

inpainting / outpainting

画像内に周囲に合うように新しい要素を生成する

画像外に自然に合うように風景を描き足す

Subject-Driven Image Generation / ID転送

ランダムではなく、指定した主題を生成させるための技術

e.g. LoRA / IP-Adapter

face swap

顔を参照された顔と入れ替える

e.g. ReActor

顔転送 / ID転送

face swapは仮面を作って別人につけてもらうだけだったが、こちらはその人の特徴(ID)を学習し、より柔軟に適用させる

Subject-Driven Image Generationに含まれることも多い

e.g. InstantID

ポーズ転送 (pose transfer)

人・動物のポーズだけを指定して画像・動画を生成させる

e.g. ControlNet Openpose

モーション転送

物体の動きを指定して動画を生成させる

ポーズ転送では等身が違ったりすると自然な動画が作れないが、モーション転送はより柔軟であり、車の動きを動物の動きに置き換えるといったこともできる

e.g. MotionDirector

Human Motion Transfer

ポーズ(モーション)だけを指定して動画を生成させる

e.g. Animate Anyone

スタイル転送 (style transfer)

参照画像のスタイル(色彩、テクスチャ、パターン、筆遣い)を参考に画像を生成させる

e.g. RB-Modulation

構図転送

構図、物体の配置を指定して画像を生成させる

再配置 (Object Dragging)

画像内のオブジェクトの位置を移動させる

e.g. DiffUHaul

リップシンク

入力された音声に合わせて、静止画・動画の口を動かす

talking head

入力された表情の情報に合わせて、静止画・動画内の顔を動かす

音声のみ入力で、それにあった顔のアニメーションを生成するものもある

e.g. LivePortrait / EchoMimic

ライティング / リライト

仮想の光源を設置し、それに合うようにターゲットの光の当たり方を修正する

背景に溶け込むように前景のライティングを修正する

e.g. ClipDrop Relight / IC-Light

切り抜き (matting)

画像を"背景"と"前景"の2つに分ける

e.g. Rembg

セグメンテーション

画像内を複数の意味のある部分に分割する

画像内の特定のオブジェクトの形を識別する

e.g. Segment Anything

オブジェクト除去

画像・動画内の特定のオブジェクトを消し、その部分を自然に埋める

e.g. LaMa

超解像 (Super-Resolution)

低解像度の画像を高解像度に変換する

ボケた画像の細部や鮮明さを向上させる

フレーム補間 (VFI)

前後のフレームを参考に、その間のフレームを生成する

e.g. FILM

generative interpolation

前後のフレームを参考に、その間のフレームを生成するのはフレーム補間と同じ

ただし、生成する秒数が長く、アニメでいう原画から動画を作るような創造的な作業を行う

e.g. ToonCrafter