Mel Spectrogram - work4ai

Mel Spectrogram

#WIP 間違いがあれば訂正お願いします！

音声から特徴量を抽出して画像化する

人の聴覚に基づいた尺度によるスペクトル画像

メル尺度(Mel Scale)を用いることで、人間の聴覚に近い分解能で周波数成分を表現している

paperによく書いてあるから調べる

なにもわからない

音声生成モデルはMelを生成している？

必ずしも全てそうとは言えない？

その後vocoderによって音声化？

MIR: Music Information Retrieval

ジャンル分類: Genre Classification

感情推定: Music Emotion Recognition

構造解析: Structure Segmentation

ビート・テンポ検出: Beat Tracking

カバー曲検出: Cover Song Identification

楽曲推薦・プレイリスト生成: Music Recommendation

ISMIR/INTERSPEECH/ICASSP

CVPRのようなもの？

pyworld/librosa

いずれ試す

FYI

https://qiita.com/koshian2/items/ca99b4a489d164e9cec6

https://tech.aru-zakki.com/dnn-mel-spectrogram-train-and-infer/

https://nttdocomo-developers.jp/entry/20231225_3

https://www.acceluniverse.com/blog/developers/2019/11/-cd-mir-mirmusic-information-retrieval-ismirmir201920.html

ChatGPT.icon https://chatgpt.com/share/68f1aca8-166c-8013-8ebb-f22d525797fa

ChatGPT.icon Mel尺度と出典について

- 比較

https://arxiv.org/pdf/2404.01058

音楽ジャンル分類における性能差 Deep VQ vs Mel Spectrogram