Resarch
畳み込みニューラルネットワークにおける周辺予測パディングによる位置不変性の向上
Improving Translation Invariance in Convolutional Neural Networks with Peripheral Prediction Padding
Zero padding is often used in convolutional neural networks to prevent the feature map size from decreasing with each layer. However, recent studies have shown that zero padding promotes encoding of absolute positional information, which may adversely affect the performance of some tasks. In this work, a novel padding method called Peripheral Prediction Padding (PP-Pad) method is proposed, which enables end-to-end training of padding values suitable for each task instead of zero padding. Moreover, novel metrics to quantitatively evaluate the translation invariance of the model are presented. By evaluating with these metrics, it was confirmed that the proposed method achieved higher accuracy and translation invariance than the previous methods in a semantic segmentation task.
https://gyazo.com/fa9b5c133dbe3f6d5f871784d0886bd7
https://gyazo.com/12df00f5875a24470682f0c6811cad23
Implementation of PP-Pad with convolutional layers (h_p×w_p=2×3)
(1) Kensuke Mukai and Takao Yamanaka, "Improving Translation Invariance in Convolutional Neural Networks with Peripheral Prediction Padding," International Conference on Image Processing (ICIP), 2023, Kuala Lumpur, Malaysia. arXiv /icons/hr.icon
高さ情報を利用したNeRFの精度向上
mproving NeRF with Height Data for Utilization of GIS Data
Neural Radiance Fields (NeRF) has been applied to various tasks related to representations of 3D scenes. Most studies based on NeRF have focused on a small object, while a few studies have tried to reconstruct large-scale scenes although these methods tend to require large computational cost. For the application of NeRF to large-scale scenes, a method based on NeRF is proposed in this paper to effectively use height data which can be obtained from GIS (Geographic Information System). For this purpose, the scene space was divided into multiple objects and a background using the height data to represent them with separate neural networks. In addition, an adaptive sampling method is also proposed by using the height data. As a result, the accuracy of image rendering was improved with faster training speed.
https://gyazo.com/bdf8c4795ba32eb7c35deaa3212b9896
Schematic of proposed method consisting of two techniques: Multiple Models (MM) and Adaptive Interval Sampling (AIS).
https://gyazo.com/8b78e2cc70fbc14ce3a410de0bfa3037
Qualitative comparison with other methods in Legos dataset.
(1) Hinata Aoki and Takao Yamanaka, "Improving NeRF with Height Data for Utilization of GIS Data," International Conference on Image Processing (ICIP), 2023, Kuala Lumpur, Malaysia. arXiv /icons/hr.icon
単一スナップ写真から全天球画像の生成
Omni-Directional Image Generation from Single Snapshot Image
通常のカメラで撮影したスナップ写真から全天球画像を生成する課題を提案し,その研究に取り組んでいる。この課題では,実際と全く同じ風景を再現するのではなく,スナップ写真を含むできる限り自然な全天球画像を生成することを目的としている。スナップ写真から全天球画像を生成できれば,VRやARのシステムをより手軽に構築できる。本研究では,「自然な全天球画像」を,実際の全天球画像と区別のつかない画像として定義し,深層学習の一手法であるGenerative Adversarial Networks (GAN)を利用して全天球画像を生成している。特に入力画像と対応した画像を生成できるconditaional GAN (cGAN)を利用しているが,それをそのまま利用するのではなく,様々なシーンに対応するために,条件付き畳み込み層という構造を考えて,撮影された画像のシーンに依存した畳み込みフィルタを学習する手法を提案した(1)。その結果,単一のネットワークで24種類のシーンの全天球画像を生成できた。
https://gyazo.com/d853a86f66d797fcce36ac5df1f976dc
Concept of ODI generation system. this system can be used to generate ODI and extract snapshot images at arbitrary locaitons.
https://gyazo.com/1a77dda67295a98a60159ca8e62526ca
Structure of class-conditioned ODI generator from single snapshot image.
References
(1) Keisuke Okubo and Takao Yamanaka, “Omni-Directional Image Generation from Single Snapshot Image,” SMC2020. arXiv | github (2) Keisuke Okubo and Takao Yamanaka, "Omni-Directional Image Representation in GAN-based Image Generator," 電子情報通信学会PRMU研究会,オンライン,Oct. 2021.
(3) 宮崎龍斗,田畠誠大,山中高夫,階層型全天球画像生成モデル,電子情報通信学会PRMU研究会,東京,Oct. 2022.
(4) 中田敦也, 山中高夫, MLPMixerを用いた全天球画像生成, 第25回画像の認識・理解シンポジウム, 姫路, July 26-28, 2022.
(5) Atsuya Nakata, Ryuto Miyazaki, and Takao Yamanaka, "Increasing diversity of omni-directional images generated from single image using cGAN based on MLPMixer," Asian Conference on Pattern Recognition (ACPR), 2023, Kitakyusyu, Japan. arXiv | GitHub (6) Atsuya Nakata and Takao Yamanaka, "2S-ODIS: Two-Stage Omni-Directional Image Synthesis by Geometric Distortion Correction," European Conference on Computer Vision (ECCV), 2024, Milano, Italy. arXiv | GitHub /icons/hr.icon
平面画像に対する顕著性マップ推定
Saliency-map Estimation for Plane Images
人が画像を見たときに視線の向きやすい場所を画像特徴量から推定する顕著性マップ推定課題において,平面画像に対して畳み込みニューラルネットワーク(DCNN)を用いた手法を研究している。従来,DCNNを利用していないもの・利用したものを含め,様々な手法が提案されており,MIT Saliency Benchmarkというウェブサイト(http://saliency.mit.edu )で,各手法の性能を比較することができる。我々は,図に示すようなネットワーク構造を使い,MainNetの部分に画像認識課題で高い精度を示しているDenseNetとDPN (Dual Path Networks)を利用して平面画像から顕著性マップを推定する手法を提案した(1, 2)。MIT Saliency Benchmarkでは,8種類の評価指標で比較することができるが,図に示すように提案手法がいくつかの指標でトップの成績を示している(2018/10/24: 85モデル中)。 https://gyazo.com/fcf464a6183638ad9c43582e4063bd66
平面画像に対する顕著性マップ推定
https://gyazo.com/50cb2f6cacab32ecf75c93e4e0c9a893
References
(1) T. Oyama and T. Yamanaka, Influence of Image Classification Accuracy on Saliency Map Estimation, CAAI Transactions on Intelligence Technology, vol. 3, issue 3, 2018, pp. 140-152. arXiv | Models of DenseSal and DPNSal in MIT Saliency Benchmark (2) T. Oyama and T. Yamanaka, Fully Convolutional DenseNet for Saliency-Map Prediction, ACPR2017. (Best Student Paper Award)
/icons/hr.icon
全天球画像に対する顕著性マップ推定
Saliency-map Estimation for Omni-Directional Images
平面画像に加えて,全天球画像に対する顕著性マップ推定の課題にも取り組んでいる。図に示すように,全天球画像から複数のカメラ方向で平面画像を抽出し,平面画像用の顕著性マップ推定手法により得られた顕著性マップを再び全天球画像に統合する方法を利用した。ここで,平面画像では,画像の中心に視線が集まりやすいセンターバイアスという現象が見られるが,全天球画像では,画像の中心ではなく水平線方向に視線が集まりやすい水平線バイアスという現象が知られている。図の手法では,このバイアスの違いを考慮して,平面画像用のセンターバイアスを除去し,水平線バイアスを付加する手法を提案した (1, 2)。その結果,これらのバイアスの違いを考慮していない従来手法に比べて,高い精度を得ることができた。また,画像の抽出枚数や抽出時の方向により推定精度が大きく変化することが分かった。
https://gyazo.com/0ff250cca148c6adb7dd5c6c33f1ac63
全天球画像の顕著性マップ推定
References
(1) T. Suzuki and T. Yamanaka, Saliency Map Estimation for Omni-Directional Image Considering Prior Distributions, SMC2018. arXiv (2) 鈴木達哉,山中高夫,事前分布を考慮した全天球画像の顕著性マップ推定,PRMU2018.
(3) Takao Yamanaka, Tatsuya Suzuki, Taiki Nobutsune, and Chenjunlin Wu, "Multi-Scale Estimation for Omni-Directional Saliency Maps Using Learnable Equator Bias," IEICE Transactions on Information and Systems, Vol. E106-D, No. 10, 2023, pp. 1723-1731. IEICE | arXiv | GitHub /icons/hr.icon
効率的に圧縮した顔画像から視線方向の推定
Gaze Estiation from Efficiently Compressed Face Images
顔画像からDCNNを用いて視線方向を推定する課題にも取り組んでいる。従来法として顔画像からDCNNを利用した視線推定手法が提案されており,目の画像だけ利用した場合より顔全体を利用した方が推定精度が高いことが知られていた。しかし,顔の中でも視線推定に対する重要度は場所によって異なっていると考えられるので,図に示すように,本研究では顔の部分に重要度(Importance map)を設定し,その重要度に従って効率的に圧縮して視線を推定する手法を提案した(1)。その結果,同じ解像度の画像を入力とした場合,顔画像をそのまま利用するより,重要度によって効率的に圧縮した画像を利用した方が精度が高いことが分かった。さらに,この重要度マップをデータから学習するために,図に示すように,新しくLearnable Pooling Module (LPM)という構造を提案し(2),重要度を利用して圧縮した場合と近い精度を得ることができた。
https://gyazo.com/4e81eac6dd59e361692183ec10797516
効率的な画像圧縮による視線推定
https://gyazo.com/507252892cda20950a3987d9fca11973
Learnable Pooling Moduleによる画像圧縮
References
(1) Reo Ogusu, Takao Yamanaka, Estimating 2D gaze coordinates from efficiently compressed face images, PRMU2018.
(2) Reo Ogusu, Takao Yamanaka, LPM: Learnable Pooling Module for Efficient Full-Face Gaze Estimation, FG2019. arXiv