【wip】Sketching the Expression: Flexible Rendering of Expressive Piano Performance with Self-Supervised Learning
https://scrapbox.io/files/64e60aff4fcb1e001c559825.png
日付
2023/8/23
論文リンク
https://ismir2022program.ismir.net/poster_151.html
文献情報
SKETCHING THE EXPRESSION:
FLEXIBLE RENDERING OF EXPRESSIVE PIANO PERFORMANCE
WITH SELF-SUPERVISED LEARNING
Seungyeon Rhyu, Sarah Kim, Kyogu Lee
ISMIR 2022
要は何?
演奏表情づけ.
CVAEを用いてピアノ演奏におけるフレキシブルな演奏表現づけを実現
問題意識と解決策
ピアノの演奏表現を計算機上で実現するには,(量子化された)楽譜からラウドネスおよびタイミングを模倣することが必要である.
昨今ではdnnを用いて実現されている(VirtuosoNet Jeong 等.)
さらに,計算機上でその演奏表現を操作をできると嬉しい.->これには時変特徴のdisentanglementが必要となる
Maezawa et alらやTan et al.はVAEベースでdisentanglementを実現させた.
しかしこれらの方法は操作のフレキシブルさに欠けている.
Maezawa et al. -> 楽譜上の特徴の操作のみ
https://scrapbox.io/files/650865cff82353001b56af32.png
Tan et al. ->対象はダイナミクスとアーティキュレーション.ノートタイミングとテンポは操作できない
https://scrapbox.io/files/65086649898a07001c0fe504.png
このことから本研究ではフレキシブルな音楽表現を実現するための演奏表情づけ方法を提案する.
先行研究の「演奏者は作曲者の指示・意図をかならず実現させる」という仮定を捨て,既存の演奏の"expressive models "やexplicit plannningと呼ばれるものを認識したり模倣するという立場に立つ.
具体的には高次元な「スケッチ」として演奏者の解釈のもと演奏に盛り込む表現要素(ダイナミクス,アーティキュレーション,テンポ等)を定義し,それをモデリングすることを目指す.
また,それ以外の要素を楽曲そのものから由来する「構造属性」として定義する.
モデリングにおいては前者を制御可能なCVAEモデルを用いて,フレキシブルな制御を目指す.
自己教師あり学習を用い,制御対象のアトリビュートに対し,潜在変数が従うように学習させる.
さらに,各表現要素を独立にコントロールできることを目指す.
関連研究
手法
データ形式
MIDI.さらに以下の特徴を,音楽表現の実現するためのパラメータとして用いる.
yamamoto.icon 前提:IOI inter-onset-interval とは
https://scrapbox.io/files/650870611a0145001c47801d.png
音符のなり始めから前の音のなり始めまでの時間
https://scrapbox.io/files/650870a140b58400203249c9.png
こういう場合もありうる
Articulation Strategies in Expressive Piano Performance Analysis of Legato, Staccato, and Repeated Notes in Performances of the Andante Movement of Mozart’s Sonata in G Major (K 545) より Journal of New music Research, Bresin et al. 2010
Performance features
MIDI Velocity 24-104の値で表される,ピアノの打鍵速度.音の強さに相当
IOI Ratio Inter-onset-interval -> 瞬間的なテンポの揺れ.オンセットと前のコードの間
Articulation -> 瞬間的なテンポに対する音符の実質的な長さ
Score features
pitch -> midi numberで表現
RelDurartion -> 11段階の音の長さ
Rel IOI -> 11段階のIOI値
IsTopVoice -> 一番上の音かどうか
PositionInChord -> 和音内11段階の位置インデックス(?)
NumInChord -> 和音内の11段階のノートのインデックス(?)
yamamoto.icon この二つが何を示しているのかわからなかった.最大11の同時発音を許し,前・下からカウントしていくということだろうか(となると最大値は指の本数=10では...?ペダルありってこと?)
Staff -> ト音記号 or ヘ音記号の音か
IsDownbeat -> 拍節上の音かどうか
モデル
https://scrapbox.io/files/65086b1cffbe40001c2f8d2d.png
2段階の階層的なエンコーダデコーダモデル.
エンコード時に第1段階でノート単位でモデリング,第2段階でコード単位にモデリングする.(デコード時は逆)
N2CとC2N
長さCのコード系列とそのコードに含まれる最大Note数NのCxN行列Mを考える.
https://scrapbox.io/files/650b280332b19c001b85f2d8.png
eはそれぞれの入力特徴を表し,Mはノート単位->コード単位のエンコード,その転置は逆操作.
CVAEモデル
実験とその結果
コメント