アンチエイリアシング機構を導入したサンプリング周波数非依存畳み込み層を用いた音源分離
◎齋藤弘一, 中村友彦(東京大学), 矢田部浩平(早稲田大学), 小泉悠馬 (NTT), 猿渡洋(東京大学)
我々はこれまでに,任意のサンプリング周波数の音響信号に対して一貫して動作するシングルチャネルの deep neural network(DNN)音源分離モデルを実現するため,サンプリング周波数非依存(sampling-frequency-independent: SFI)畳み込み層を提案してきた.SFI 畳み込み層では,畳み込み層の重みがデジタルフィルタとみなせることに着眼し,アナログフィルタからのデジタルフィルタ設計手法の 1 つであるインパルス不変法を用いて重みを生成する.これにより,学習に用いなかったサンプリング周波数に対する畳み込み層の重みが生成できる.SFI 畳み込み層を用いた DNN 音源分離モデルでは,学習したサンプリング周波数と同一,またはより高いサンプリング周波数に対しては一貫した性能を示すものの,低いサンプリング周波数に対しては分離性能が低下することが実験的に確認されている.本稿では,SFI 畳み込み層の重み生成過程においてエイリアシングシングを引き起こしうるアナログフィルタに対応する重みを用いないことで,低いサンプリング周波数での分離性能低下が軽減できることを示す.楽音分離実験により,学習後に提案手法を SFI 畳み込み層に導入するだけでも,低いサンプリング周波数の音響信号に対して分離性能が向上することを確認した.