Resarch
単一スナップ写真から全天球画像の生成
Omni-Directional Image Generation from Single Snapshot Image
通常のカメラで撮影したスナップ写真から全天球画像を生成する課題を提案し,その研究に取り組んでいる。この課題では,実際と全く同じ風景を再現するのではなく,スナップ写真を含むできる限り自然な全天球画像を生成することを目的としている。スナップ写真から全天球画像を生成できれば,VRやARのシステムをより手軽に構築できる。本研究では,「自然な全天球画像」を,実際の全天球画像と区別のつかない画像として定義し,深層学習の一手法であるGenerative Adversarial Networks (GAN)を利用して全天球画像を生成している。特に入力画像と対応した画像を生成できるconditaional GAN (cGAN)を利用しているが,それをそのまま利用するのではなく,様々なシーンに対応するために,条件付き畳み込み層という構造を考えて,撮影された画像のシーンに依存した畳み込みフィルタを学習する手法を提案した(1)。その結果,単一のネットワークで24種類のシーンの全天球画像を生成できた。
https://gyazo.com/d853a86f66d797fcce36ac5df1f976dc
Concept of ODI generation system. this system can be used to generate ODI and extract snapshot images at arbitrary locaitons.
https://gyazo.com/1a77dda67295a98a60159ca8e62526ca
Structure of class-conditioned ODI generator from single snapshot image.
References
(1) Keisuke Okubo and Takao Yamanaka, “Omni-Directional Image Generation from Single Snapshot Image,” SMC2020. arXiv | github /icons/hr.icon
平面画像に対する顕著性マップ推定
Saliency-map Estimation for Plane Images
人が画像を見たときに視線の向きやすい場所を画像特徴量から推定する顕著性マップ推定課題において,平面画像に対して畳み込みニューラルネットワーク(DCNN)を用いた手法を研究している。従来,DCNNを利用していないもの・利用したものを含め,様々な手法が提案されており,MIT Saliency Benchmarkというウェブサイト(http://saliency.mit.edu )で,各手法の性能を比較することができる。我々は,図に示すようなネットワーク構造を使い,MainNetの部分に画像認識課題で高い精度を示しているDenseNetとDPN (Dual Path Networks)を利用して平面画像から顕著性マップを推定する手法を提案した(1, 2)。MIT Saliency Benchmarkでは,8種類の評価指標で比較することができるが,図に示すように提案手法がいくつかの指標でトップの成績を示している(2018/10/24: 85モデル中)。 https://gyazo.com/fcf464a6183638ad9c43582e4063bd66
平面画像に対する顕著性マップ推定
https://gyazo.com/50cb2f6cacab32ecf75c93e4e0c9a893
References
(1) T. Oyama and T. Yamanaka, Influence of Image Classification Accuracy on Saliency Map Estimation, CAAI Transactions on Intelligence Technology, vol. 3, issue 3, 2018, pp. 140-152. arXiv | Models of DenseSal and DPNSal in MIT Saliency Benchmark (2) T. Oyama and T. Yamanaka, Fully Convolutional DenseNet for Saliency-Map Prediction, ACPR2017. (Best Student Paper Award)
/icons/hr.icon
全天球画像に対する顕著性マップ推定
Saliency-map Estimation for Omni-Directional Images
平面画像に加えて,全天球画像に対する顕著性マップ推定の課題にも取り組んでいる。図に示すように,全天球画像から複数のカメラ方向で平面画像を抽出し,平面画像用の顕著性マップ推定手法により得られた顕著性マップを再び全天球画像に統合する方法を利用した。ここで,平面画像では,画像の中心に視線が集まりやすいセンターバイアスという現象が見られるが,全天球画像では,画像の中心ではなく水平線方向に視線が集まりやすい水平線バイアスという現象が知られている。図の手法では,このバイアスの違いを考慮して,平面画像用のセンターバイアスを除去し,水平線バイアスを付加する手法を提案した (1, 2)。その結果,これらのバイアスの違いを考慮していない従来手法に比べて,高い精度を得ることができた。また,画像の抽出枚数や抽出時の方向により推定精度が大きく変化することが分かった。
https://gyazo.com/0ff250cca148c6adb7dd5c6c33f1ac63
全天球画像の顕著性マップ推定
References
(1) T. Suzuki and T. Yamanaka, Saliency Map Estimation for Omni-Directional Image Considering Prior Distributions, SMC2018. arXiv (2) 鈴木達哉,山中高夫,事前分布を考慮した全天球画像の顕著性マップ推定,PRMU2018.
/icons/hr.icon
効率的に圧縮した顔画像から視線方向の推定
Gaze Estiation from Efficiently Compressed Face Images
顔画像からDCNNを用いて視線方向を推定する課題にも取り組んでいる。従来法として顔画像からDCNNを利用した視線推定手法が提案されており,目の画像だけ利用した場合より顔全体を利用した方が推定精度が高いことが知られていた。しかし,顔の中でも視線推定に対する重要度は場所によって異なっていると考えられるので,図に示すように,本研究では顔の部分に重要度(Importance map)を設定し,その重要度に従って効率的に圧縮して視線を推定する手法を提案した(1)。その結果,同じ解像度の画像を入力とした場合,顔画像をそのまま利用するより,重要度によって効率的に圧縮した画像を利用した方が精度が高いことが分かった。さらに,この重要度マップをデータから学習するために,図に示すように,新しくLearnable Pooling Module (LPM)という構造を提案し(2),重要度を利用して圧縮した場合と近い精度を得ることができた。
https://gyazo.com/4e81eac6dd59e361692183ec10797516
効率的な画像圧縮による視線推定
https://gyazo.com/507252892cda20950a3987d9fca11973
Learnable Pooling Moduleによる画像圧縮
References
(1) Reo Ogusu, Takao Yamanaka, Estimating 2D gaze coordinates from efficiently compressed face images, PRMU2018.
(2) Reo Ogusu, Takao Yamanaka, LPM: Learnable Pooling Module for Efficient Full-Face Gaze Estimation, FG2019. arXiv