音響イベント検出の課題
音響イベント検出の課題
音の持つ特性と,それによる環境からの影響
音の特性の違い
ある音はとても短く過渡的(transient-like)だが,またある音は長く,いくつかの音声が組み合わさり作られる
調和的,harmonic
足音や鳥のさえずりなど
音の発生源が遠く,音の検出の関数に大きな影響を与える
音響伝達関数(acoustic transfer function)に影響を及ぼす
つまり上手く検出できない?
対象の音の音圧が低く,検出が困難である場合がある
SNRが低い?
Signal-to-Noise Ratio
ノイズの割合
これが高いとノイズが全然なくて,低いとノイズばかり
有効な信号の成分がどれくらいあるか,ということ
事象は単独で発生するわけではなく,重なる場合がある
Polyphonyな状態での識別も必要
音楽など,事前にイベントの共起を設定できるタスクと異なり,その場で学習に使う予測対象の統計的な数値を取得する必要があるかも
データ収集やアノテーション
ラベル付けが大変
音響イベントは無数に存在するので,クラス数は際限なく増える
標準的なラベルの命名法則が存在しない
ontologyがない
重なり合う音を扱う場合,それぞれにつける必要があり,とても手間
含まれるイベントの種類だけでなく,いつ発生したかも含まれている場合,強ラベルと呼ぶ
イベントの発生時刻と終了時刻まできっちり判別されている
重なっている場合,それらを聞き分けるか分解するかは不明だが,とにかく時間がかかる
苦労してラベルをつけたとして,どのシステムでも使えるデータは存在しないし,ラベル名自体も表記揺れが激しく,汎用性が低い
汎用性の高いデータは存在しないので,もし必要なデータが見つからなければ,自分で収集するなどが必要
と書いてあるが,おそらくNotebookのハルシネーションではないし,当時に限った話,ということでもないのだろう
強ラベルの問題を解決する手段として弱ラベルやラベルなしデータの利用がある
弱ラベルはイベントの種類だけ付与したもの
教師なし,半教師あり学習で利用することになるのだろう
その分,モデルやシステムが複雑になってしまう