harvest
基本周波数 (F0, 最近はFO と表記することもあるが本稿ではF0 に統一する) は, 周期的に生じる声帯振動間隔の最も短いものの逆数として定義され, 知覚する音声の高さに概ね対応する音声の主要なパラメータである。
F0は様々な音声処理に利用されるパラメータであり, 例えば Channel vocoder の考えに基づいた高品質音声合成では,音声から F0を可能な限り高い精度で推定することが要求される. 筆者らは, これまで高SNR の音声を対象とした実時間処理が可能な推定法について検討し, SNR が 30 dB 以上であれば実時間処理が可能であり、 かつ最新の方法と比較しても遜色ない性能が達成可能な方法を提案してきた 一方, 例えば統計的音声合成では,学習に必要な音声パラメータは事前に分析しておけば良いため, 実時間性よりも高い精度と雑音に対する頑健性を備えた方法が望ましいといえる.
本稿では, 計算速度ではなく, 高い耐雑音性と推定精度にフォーカスを絞ったF0 推定法 Harvest を提案する. Harvest は, 音声スペクトルが調波構造を持つことに着目し, 基本波に相当するピークを検出する方法を採用している
まず, 高調波と低域雑音を除去するため、 様々な中心周波数のバンドパスフィルタによるフィルタリングを実施し, 得られた多チャネル信号からFOの可能性がある候補を全て選定する. その後, 選定された候補を瞬時周波数を用いて補正し、 時系列の連続性を考えて接続することで最終的なF0 軌跡を生成する.
本稿では, 音声データベースを用いた評価, および筆者らが2016年に提案した耐雑音性評価法により提案法の有効性を示す.
キーワード 音声分析, 基本周波数, 基本波, 耐雑音性