Mel Spectrogram
#WIP 間違いがあれば訂正お願いします!
音声から特徴量を抽出して画像化する
人の聴覚に基づいた尺度によるスペクトル画像
メル尺度(Mel Scale)を用いることで、人間の聴覚に近い分解能で周波数成分を表現している
paperによく書いてあるから調べる
なにもわからない
音声生成モデルはMelを生成している?
必ずしも全てそうとは言えない?
その後vocoderによって音声化?
MIR: Music Information Retrieval
ジャンル分類: Genre Classification
感情推定: Music Emotion Recognition
構造解析: Structure Segmentation
ビート・テンポ検出: Beat Tracking
カバー曲検出: Cover Song Identification
楽曲推薦・プレイリスト生成: Music Recommendation
ISMIR/INTERSPEECH/ICASSP
CVPRのようなもの?
pyworld/librosa
いずれ試す
FYI
https://qiita.com/koshian2/items/ca99b4a489d164e9cec6
https://tech.aru-zakki.com/dnn-mel-spectrogram-train-and-infer/
https://nttdocomo-developers.jp/entry/20231225_3
https://www.acceluniverse.com/blog/developers/2019/11/-cd-mir-mirmusic-information-retrieval-ismirmir201920.html
ChatGPT.icon https://chatgpt.com/share/68f1aca8-166c-8013-8ebb-f22d525797fa
ChatGPT.icon Mel尺度と出典について
- 比較
https://arxiv.org/pdf/2404.01058
音楽ジャンル分類における性能差 Deep VQ vs Mel Spectrogram