【wip】How to Estimate Model Transferability of Pre-Trained Speech Models?
https://scrapbox.io/files/64cf7fe7270a0d001ba79137.png
日付
2023/8/6
論文リンク
文献情報
INTERSPEECH 2023
Zih-Ching Chen, Chao-Han Huck Yang, Bo Li, Yu Zhang, Nanxin Chen, Shou-Yiin Chang, Rohit Prabhavalkar, Hung-yi Lee, Tara N. Sainath
NTU, Taiwan & Goggle
要は何?
SSLモデルの転移可能性のスコア(score-based assessment)の提案
問題意識と解決策
近年大規模モデルを用い,事前学習済みの特徴をdownstreamタスクに適用する枠組みが多くのspeechタスクで用いられている.
この際,どのようにdownstreamタスクに適用させるかがポイントとなる.
ファインチューニングは計算コストが高い
PEFT(modular adapter, reprogramming等)はhand-craftなルール.うまくいく保証がない.
この点から,自動的にモデルや有用な層の決定ができないかについて探究したい.
その基準のスコアとして,transferrabilityスコアを考える.
スコアを計算する方法としては2つの理論的側面から考えることができる
1. 最適輸送(optimal transport)
2. ベイズのグラフィカルモデル (Maximum evidence)
これらの側面から,音声でほとんど行われてなかった転移可能性についての検討を行う.
yamamoto.icon 書きやすいのでtransferrabilityは転移可能性とする
関連研究
事前学習済みモデルの転移可能性に関して
Negative conditional entropy (NCE)
Transferability and Hardness of Supervised Classification Tasks, Anh T. Tran, Cuong V. Nguyen, Tal Hassner, ICCV19
ソースモデルの推定出力とターゲットのpseudo labelとの条件付きエントロピーを計算
LEEPという推定出力のソフトラベルをとる手法もある
この手法では相関係数が0.6以下かつ高いp値しか出ないという報告もある.
LogME
vision & languageタスクで転移可能性を算出するもの
ターゲットタスクの正解率を予測する(ターゲットタスクのサンプルの周辺尤度を予測)
暗にモデルにclassification headがくっつけられた状態で使うことを前提にする
言語系タスクでのモデル選択によく用いられている
speech系ではまだspeech特有の構造(時系列であること等)に関する適用が必要そう <--> classificationの枠組みで計算したものでは十分でない可能性
Speechでのモデル選択
学習済みモデルを選択的に再学習する方法が主
入力層に近いいくつかの層のみを使う,出力層に近い層のみを使う等
タスク依存性があり,ヒューリスティックなやり方になってしまう
手法
準備:時系列依存仮説(TIH)のモデリング
ラベルの時系列と入力特徴の相関についてを予測する.
音声認識のようなspeechタスクはラベルと入力がアライメントされていないため,この仮説にはCTCを用いる.
CTC
2つの方法について検証.
1. 最適輸送
2. エビデンス最大化
実験とその結果
コメント