2025/9/5 中間ヒアリング
資料 >
Gemini >
進捗をまとめる
当初の目的を踏まえ,簡潔にまとめる
cf. 2025/7/25 研究の面談,2025/7/18の発表の構想を再考する
x DCASE 2024の報告書を読み,工夫を考察 > 卒論で行うSEDの工夫
x 環境構築
x ベースラインを動作
! Cross-attentionによる結合を実装・評価
! 他の工夫を実装・評価
! アブレーションスタディ
! 卒論を再考する,追加調査
論文の本数が絶対的に不足
過程含めもう少しまとめる
cf. 研究ログ
x ベースラインを動作
MPS対応 > 失敗
Ubuntuで環境構築
データ欠損に対応
! Cross-attentionの実装
x 中間層の特徴量を抽出
x Cross-attentionによる特徴量の結合
! BEATsによる埋め込み作成
! 評価
! 他の工夫の実装,評価 > 卒論で行うSEDの工夫
Confident Mean Teacher
半教師あり学習手法の検討が課題
Mean-Teacherを説明できるよう,理解が必要
ラベルのあるデータを使い,どのようにラベル付けを行うか
Teacher及びStudentモデルの役割と仕組み
理解が進んだ後,改良手法について理解し,実装する
必要なら他の手法も検討
現時点での理解だと
ラベルなしデータを扱うために,疑似ラベルを生成して割り当てるはず
疑似ラベル生成は既存モデルの分布を利用して,確率の高いものを割り当てる手法だったはず
モデルの学習が進むごとに何か問題が生じるので,時間的な平均を取って精度を安定させるために教師モデルを作成していたような
全然理解できてないな
RNNモジュールを変更
GRUから他に変更し,評価
候補は以下
Conformer
Mamba
other?
現在及び今後の検討事項
システムの具体化
大学院試験での指摘を受けて,ユースケースや規模感など,具体性に欠けるせいで技術の調査や検討が難しくなっていると感じた
必要なら追加で調査を行い,大まかで良いので技術を検討できる程度に具体化する
二段階学習の採用
DCASE 2024の上位を見て方法を知るにて
初めに事前学習済みモデルをファインチューニングし,その後事前学習済みモデルでラベル付与されたデータを使って事前学習済みモデル以外の層を学習させる,という二段階の手順を踏む...はず
FLの通信や計算資源,何より計算時間の肥大化を心配していた
大学院試験の指摘を受けて,今後具体的なシステムを検討する予定だが,そこで余裕がありそうなら二段階学習も採用できそう
Mambaの採用
Mambaというモデルアーキテクチャがある
ある記事ではTransformerより性能が出ると言っていたが,まだ触ってないのでよく分からない
ひとまず時間的な特徴を捉えるために,RNN部分への採用を考えている
もし可能であれば,事前学習済みモデルの置き換えも検討したい
そこまでパラメータの多いモデルを組めるのかは要調査
半教師あり学習の調査
上の記述と被るが,こちらにも記載
現状,DCASE 2024でMean-Teacherが主流であったためそのまま使用している
Confident Mean Teacherは改善手法の一つだが,必要であれば他の手法を調査したい
モデルアーキテクチャの調査
Mamba含め,知らないアーキテクチャが想像以上に多い
音響イベント検出への応用の有無に関わらず,調査が必要ではないか
ひとまず一連の実装と別に,機械学習モデルに関する知識を増やし,アーキテクチャの判断,評価ができるようにしたい
面談のメモ
院試のメモは卒論を再考するに書いてあったので参照しよう
具体化について必要そうな検討
特定のイベントの精度はどのくらい必要なのか
どういう行動が検知できる?
自分の工夫の着想はどこから?
? これなぜ聞かれたのだろう
一番最初の着想はFLで精度が落ちるのを見越して精度を向上させたかった
ただしシステムに必要な精度の程度と,どのイベントに対してどのくらいの精度が必要になるかは検討してない
工夫自体は他の報告書を参考にした
特にConfident Mean TeacherとCross-attentionはそう
GRUを他に変更するのは,事前学習済みモデルをアンサンブルしたり変更しているグループがいて,それに刺激された
と言うよりGeminiの提案が元
RNNの変更もありじゃない?と言われた
それっぽい後付けをするなら,他のグループがモデルを変更していたので,僕もモジュールごとに変更を試そうと思った,となる
実際,Geminiに言われたこととDCASE 2024の上位を見て方法を知るを総合すると,モジュールごとに変更を検討しても良いなぁ,という考えには至る
研究に関する提案
正常パターンを行動認識によって確立して,そこから外れた場合は異常とみなすのだと思うが,
これが僕の理想としているモデル
* それに加えて,他のモーダルも参考にするのはどうか
例えば: 異常が起きた場合にはカメラを起動し,複数のセンサによって異常かどうか判定する
常に使うと不都合が起きるなら,必要な時のみ使えば良い
音だけだと判定に限界があるなら,他のセンサを使えば良い