FLにおける音響データ処理
from 施設内の行動認識をサーベイ
FLにおける音響データ処理
音響特徴抽出
メル周波数ケプストラム係数, MFFC
ADMarkerはこれをリアルタイムに抽出するらしい
F2LCoughも使う
スペクトログラム
メルスペクトログラムなど
僕も今使っている
音を画像として処理する際に使用
生の波形
使う人いるんだ...
音響イベント検出(AED),分類(ASC)のモデルアーキテクチャ
畳み込みニューラルネットワーク, CNN
再帰型ニューラルネットワーク, RNN
LSTMやGRU
時間的な関係をモデル化する際に使用?
Transformerとアテンション
特徴の関係性が表現できるため?
僕も今使っている
処理の少ないデータを用いる方向に進んでいるらしい
確かに,デバイス上で処理が増えるのは望ましくない
エンドツーエンド深層学習モデルというらしい
cf. エンドツーエンド深層学習のフロンティア
その分必要な計算能力が増す
表は割愛