Mel Spectrogram
音声から特徴量を抽出して画像化する
人の聴覚に基づいた尺度によるスペクトル画像
メル尺度(Mel Scale)を用いることで、人間の聴覚に近い分解能で周波数成分を表現している
paperによく書いてあるから調べる
なにもわからない
音声生成モデルはMelを生成している?
必ずしも全てそうとは言えない?
その後vocoderによって音声化?
MIR: Music Information Retrieval
ジャンル分類: Genre Classification
感情推定: Music Emotion Recognition
構造解析: Structure Segmentation
ビート・テンポ検出: Beat Tracking
カバー曲検出: Cover Song Identification
楽曲推薦・プレイリスト生成: Music Recommendation
ISMIR/INTERSPEECH/ICASSP
CVPRのようなもの?
pyworld/librosa
いずれ試す
FYI
- 比較
音楽ジャンル分類における性能差 Deep VQ vs Mel Spectrogram