信号処理
最低限の基礎を抑えたい
参考になりそうな記事
音響特徴量「メルスペクトル」と「MFCC(メル周波数ケプストラム係数)」の解説と実例紹介
一旦語源の話だけ貼る
余談になりますが、MFCC特徴量でケプストラムという用語が使用されている背景について簡単に触れたいと思います。
前節で、「対数にしたスペクトルに対して、フーリエ変換を行う」という方法(ケプストラム分析)を述べました。周波数領域(frequency)に対して、フーリエ変換を行うため本来は時間領域になりますが、この領域を特に、ケフレンシー領域(quefrency)と呼んでいます。
同様に、スペクトル(spectrum)に対しては、フーリエ変換したものをケプストラム(cepstrum)という呼び方をしています。
MFCC特徴量は、ケフレンシー領域でありケプストラムを見ているためこのような用語が使用されている訳です。
お気づきの方もいるかと思いますが、これらの用語はスペルを逆から読んだ、アナグラムになっています。
『いまさら聞けないシリーズ』信号処理
生体医工学の記事
内容はしっかりしていそう
DNN音響モデルにおける特徴量抽出の諸相
音に対するCNNの話がある
CNN以前の特徴量抽出の話もある
しかし2015年と古い
https://gyazo.com/56e281682e947eb6bf790a0fdc16a14e
https://gyazo.com/422f1678fa2f12f37cc6630d1db89bde
https://dlsun.github.io/probability/lti-time.html
音声認識の仕組み
音は媒質である空気が震えることで生じ,伝達する
震えの大きさを振幅という
音を機械で扱う上で,標本化と量子化が行われている
標本化は実際の音を一定の値に従って切り取る
サンプリングという
サンプリングする際に周期を決める
どのくらいの間隔で音を取るか
周期の逆数が周波数
サンプリング周波数が44100Hzだとすると,一秒間に振幅を44100回取得しているということ?
量子化は連続的な値を離散的にする
HMMが出てきた
上の資料でも登場
隠れマルコフモデル
https://ocw.u-tokyo.ac.jp/lecture_files/engin_01/6/notes/ja/F1-BasicHMM.pdf
理解しなくて良い
どうも音声認識と音響イベント検出とではだいぶ異なる様相を呈している気がする
大人しくチュートリアル論文を読んだ方が良い?
他,気になった点
http://recognition.web.fc2.com/tips/gmm.html
http://recognition.web.fc2.com/tips/fourier.html
記事群
Pythonで音声信号処理
やる夫で学ぶディジタル信号処理
重きを置いているのは制御工学系のフーリエ変換などの理解
信号処理も多少はやるが,基本式の話を展開するためのネタとして使用
ももうさ 信号処理(制御工学)
記事は意外と真面目に式の話をしている?
https://ocw.u-tokyo.ac.jp/course_11270/
音響応用学
僕が信号処理をどの粒度で理解しないといけないか分かっていない
素直に壁打ちとDeep Researchした方がいいな