深層学習を用いた音をクエリとする類似効果音検索システム
◎小宮寛季, 小坂直敏(東京電機大学)
環境音の検索を行う際,求める音を正確に言語化することは不可能であり,ゆえにテキストのみによる検索は困難である.そこで我々は CNN ベースの環境音分類モデルを用いて,クエリとなる音と検索対象の持つ特徴量をスペクトルから取り出し,それを基に環境音同士の類似度を算出し,3D 空間上に可視化することにより,容易に環境音の検索が行えるシステムを提案する.音データから提案モデルを用いて 128 次元の特徴ベクトルを抽出し,主成分分析を用いて 20 次元に圧縮した後,ユークリッド距離 / コサイン距離を基準として類似音検索を行った.15 種類の環境音をクエリとして 2339 個の音から上位 10 個の類似音検索を行ったところ,クエリと類似した音が提示された例は全体の 79.3% であった.さらに 27699 個の音を検索対象として用いて,既存手法との比較を行ったところ,提案手法はより正確な類似音検索が行えると示された.
予稿に文字情報として検索結果の詳細を示していますが
その一例(クエリ7における検索結果の一位)を以下に音で示します。
(クエリ7→Eα→Cα→Eβ→Cβ)
https://scrapbox.io/files/605050eb7883b100223e1b31.wav
クエリ7・Eαの条件でのシステムのデモを以下に示します。
https://scrapbox.io/files/60505424ba7bc1001c4c8e8c.mp4
コンテンツ制作の際のアセット検索にとっても役立ちそうです。mmina.icon
比較対象として MFCC を選んだ理由は?また比較対象として適切でしょうか?(平賀・筑波大)
特徴量の次元数を20次元に揃えたかったことと、手始めに単純な特徴量を用いたものとの比較が行いたかったことが理由です。MFCCだけでは時間構造の特徴量を拾い切れていないため、いずれは先行研究②のような複雑な特徴量を用いた手法との比較も行う予定です。(小宮)
ご回答ありがとうございます。「MFCCだけでは時間構造の特徴量を拾い切れていない」そうですね、それが気になりました。(平賀)
音の例をありがとうございました.コサイン距離(Cβ)のほうは,意外性を加味した近い音が挙がる,別候補として利用できるかもしれないですね.(野池)