HMR
End-to-end Recovery of Human Shape and Pose (CVPR 2018)
Human Mesh Recovery
https://akanazawa.github.io/hmr/resources/images/overview.png
Overview of the proposed framework.
An image is passed through a convolutional encoder
and then to an iterative 3D regression module that infers the latent 3D representation of the human that minimizes the joint reprojection error.
The 3D parameters are also sent to the discriminator D, whose goal is to tell if the 3D human is from a real data or not.
3D parametersを、Discriminator Dでreal humanか判定している?
We present an end-to-end framework for recovering a full 3D mesh of a human body from a single RGB image.
We use the generative human body model SMPL, which parameterizes the mesh by 3D joint angles and a low-dimensional linear shape space.
Estimating a 3D mesh opens the door to a wide range of applications such as foreground and part segmentation and dense correspondences that are beyond what is practical with a simple skeleton.
The output mesh can be immediately used by animators, modified, measured, manipulated and retargeted.
Our output is also holistic – we always infer the full 3D body even in case of occlusions and truncations.
一枚のRGB画像からfull 3Dメッシュの人体モデルを生成するframework SMPL採用, end-to-endで生成しているのが特徴? このframeworkで得られる出力は、holisticでocclusionsやtruncationsがあってもfull 3Dメッシュを生成する 古いframeworkなので、改善された手法が他にあるはず
応用
FYI
本研究ではSMPLモデルのパラメータを畳み込みニューラルネットワークにより推定する Human Mesh Recovery (HMR) と呼ばれる手法を提案しています。既存の人体モデルを用いた手法には推定された2次元姿勢などに基づき人体モデルのパラメータ最適化を行うものが存在しますが、最適化の計算コストが高いという課題がありました。それに対して本手法ではSMPLモデルのパラメータを直接推定するため高速な推論が可能です。 モデルは単眼画像を入力にSMPLモデルのパラメータである形状ベクトル β と姿勢ベクトル θ および弱透視投影カメラモデルにおけるカメラパラメータから成る計85次元のベクトルを出力します。SMPLモデルのパラメータに加えカメラパラメータを推定しているため、人物の3次元復元結果を画像上に再投影することが可能です。 本モデルの学習は関節点の2次元座標アノテーションおよび入力画像と非対応なモーションキャプチャデータ (Unpaired Data) を用いて行うことが可能で、Reprojection Error と Adversarial Loss の2つのロスを使用してモデルを学習します。Reprojection Error は推定された人体モデルのパラメータから得られる3次元姿勢を画像上に射影して得られる2次元姿勢に対するL1ロスです。しかし、人体構造的に不自然な推定姿勢でもこのロスを小さくすることができてしまうという問題があります。それを防ぎ、自然な人物姿勢を推定するために Adversarial Loss を使用します。このとき、DiscriminatorはSMPLモデルのパラメータを入力し、それがモデルにより推定されたものであるかモーションキャプチャデータからのものであるかを識別します。敵対的学習の枠組みにはLSGANを用いてエンコーダーおよびDiscriminatorの学習を行います。 画像に対応付いた3次元的なアノテーションが利用可能な場合は、上記ロスに加え、推定された3次元姿勢に対するMSEとSMPLモデルのパラメータに対するMSEの和を用いてモデルを学習します。
他の調査結果もよくまとまっていてすごい、さすがDeNA、データセットとかもいろいろ書いてある