Speech2Face: Learning the Face Behind a Voice
http://openaccess.thecvf.com/content_CVPR_2019/papers/Oh_Speech2Face_Learning_the_Face_Behind_a_Voice_CVPR_2019_paper.pdf
https://speech2face.github.io/
サマリ・新規性・議論は?・自分の研究との関連は?
サマリ
この論文では音声から発話者の顔を推定するSpeech2Faceを提案した。
相関のある人の顔の特徴を捉えるのが目的である。予測された顔特徴は4096次元の顔特徴です。
YouTubeの動画から自己教師学習でネットワークを学習する。データセットはYouTubeの数百万のビデオセグメントからなるAVSpeechを使用。画像エンコーダの出力を教師として損失の計算に利用し、デコーダで顔を復元する。
TensorFlowで実装している。新しいポイントとしては総合して特徴を再現する点が新しい。性別・年齢・人種のような属性は推定が可能である。応用としてはCartoon Gboard などの顔を出さないビデオ通話で利用が可能です。
自分の研究との関連は筋電データから声や単語を復元したいので、InputとOutputは違うが、このEncoder-Decoderのモデルは応用できそうだと思いました。
性別・人種・年齢のミスマッチの例が紹介されていたが、どのように克服する予定なのか?
また、照明条件などによって、顔の特徴をうまく捉えられないこともあるのではないか?
人の話し方から外見を推測する
正確な顔の認識可能な画像を予測することではなく、入力された音声と相関のある人の顔の特徴を捉える
短い入力音声セグメントから人物の顔の画像を正統的な形(すなわち、正面を向いている、中立的な表情で直接再構成
短い音声セグメントの複素スペクトログラムを入力
予測された顔特徴は4096次元の顔特徴
モデルを訓練するために10万人以上の異なる人々が話しているYouTubeの数百万のビデオセグメントからなるAVSpeechデータセットを使用
TensorFlowで実装
ADAMで最適化
β1 = 0.5、ǫ = 10-4、学習率0.001
指数関数的減衰率0.95の10,000回の反復毎に0.95、3エポックで8のバッチサイズ
Fig8. バッチ正則化を入れると、より多くの情報が含まれる
Cartoon Gboard などで使えそうだよ。(声からイラストの顔を作成するみたいな)
顔を出さないビデオ通話
‘Putting the Face to the Voice’: Matching Identity across Modality
Kamachi先生だ
総合して特徴を再現するのが新しい
性別・年齢・人種のような属性は推定できた
レビュー
歴史上の人物の声を自動で割り当てたりすることに使えそう
cvpaper challenge
http://xpaperchallenge.org/cv/survey/cvpr2019_summaries/186
Face2Speech