自立生活支援のための音響イベント検出の連合学習
#2025/7/20
2025/7/18の発表の構想を再考するを文書化しよう
不足分を明確にするためにも一度文書化する
2025/7/18 研究計画書発表会で指摘された分の調査は全て間に合うか微妙
SEDの先行研究の補足は間に合わせよう
他は後回し
2025/7/23くらいまでに完成すると良い
テーマ概要
近年,日本では少子高齢化が進み,医療と介護の負担が増大している.この問題に対し,自立生活支援(AAL, Ambient Assisted Living)という研究分野がある.AALは高齢者や障がいのある方に向けて,情報技術によって自立的な生活を支援する.具体的には在宅介護の実現によって,医療・介護施設と被介護者の双方の負担を軽減しつつ,被介護者の生活の質向上を目指す.
AALはセンサを用いて人の行動を認識し,異常な行動の兆候や健康状態の把握を行う.本研究ではセンサとしてマイクを使用する.従来の手法では,情報量の多いカメラが主に用いられているが,一般的にマイクに比べて高価であり,プライバシーの観点で被介護者が受け入れづらい.他にウェアラブルセンサもあるが,高齢者には認知に関する懸念があり,充電や装着を忘れる危険性が無視できない.以上の理由に加えて,咳き込みや呼吸といった,音特有の異常兆候が検出できる点も理由の一つである.
! 最後の文が違和感あるな.要修正では
! 他の環境センサに触れていない
マイク以外にも設置だけで良いセンサが存在するが,いずれもマイクより利用が簡便でなく,在宅介護には不向きである.
とか書くか迷うね
調査不足
? マイクを使用するをどこに書く?
! AALの歴史について,Deep Researchの内容が合っているのか確認したい
特に音に関して
初めは音で異常な行動の兆候が取れるか確認して,段々発展していった...
みたいにまとめられているが,それが本当か確認が必要では?
他方,音からいつ,どんなことがあったかを推定する音響イベント検出(Sound Event Detection, SED)の研究が進んでいる.SEDは与えられた音声について,イベントの発生時間と持続時間,イベントの種類を予測する.これによって.どんなイベントが,いつ始まり,どのくらい続いたかが分かる.
* SEDについて,本研究の工夫を述べる必要がある
僕が工夫できる点は何?
連合学習自体を工夫点にする場合
従来手法で検討されているプライバシー手法について調査が必要
AAL * FLに関する先行研究を持ってきて,比較したい > 調査が必要
純粋にSEDについて述べる場合
昨年度より精度向上を目指す
そこが工夫点になる
具体的にどうするかは論文を見て考える必要がある
! DCASE 2024の上位モデルの構成と学習法を見よう
一番スコアが高いのはSchmid_CPJKU
資料の名前はImproving Audio Spectrogram Transformers for Sound Event Detection Through Multi-Stage Training
これを参考にし工夫点を考える
まず何をしているか理解しよう
今の想定だと,DCASE 2024でトップだったモデルを参考に,他のチームの手法を取り入れて精度向上を目指す
懸念はどうやってFLするか
先行研究はモデルの精度向上のために段階を踏み,色々操作しているが,どこをFLするか,そもそもできるかを考える必要がある
元々ローカルのラベルなしデータを活用して,事前学習済みモデルの精度をさらに向上させるような考えでいた
実験時のFLは各エッジデバイスにデータを配り,学習させて結果を統合する
この時,先行研究でやっているような複雑な操作は果たしてできるのかが疑問
先行研究は擬似ラベルの品質向上を目指して色々やっている
僕は擬似ラベルを生成して半教師あり学習をローカルで行いたい
擬似ラベルの品質向上を目指す手法は使えそう
家庭内の音響イベントをまず区別する必要があり,そのために色々やるのは論理的に問題なさそう
まず読んでみよう
3まで読んでATSTが何かできそうと思った
Mean-Teacher以外の手法を採用するとか
あとは前処理とか
先行研究を引用し,色々述べた方が良い
音に関する研究コミュニティであるDCASEでは,SEDの研究が2018年から行われており(?),機械学習を用いてモデルを構築している.
本研究ではSEDをAALに応用し,音の利点を活かした,在宅介護に向けた支援の実現を目指す.AALには機械学習を用いない古典的な手法もあり,それらは限定的な場面で強力だが,柔軟性に欠けている.本研究では家庭環境の多様性に適応するために機械学習を利用する.
研究課題
機械学習を用いるAAL手法は概ね中央集権的であり,プライバシーのリスクが高いデータを扱う関係上,十分な対策が求められる.連合学習(Federated Learning, FL)はデータを外に持ち出さず,中央集権的な手法に少し劣る精度を発揮するモデルを学習できる.本研究では連合学習を用いることで,データを家庭外に出さずに機械学習を行う.
データを外部に持ち出さない手法として,エッジ完結型の研究がある.そちらと比較して,連合学習は各エッジデバイスのデータを間接的に利用でき,家庭環境の多様性により柔軟に対応できる.
連合学習の説明した方が良さそう
先輩の指摘も考慮しよう
エッジデバイスSED * AALのサーベイがいるかも
本研究において,主要な問いは次の二点である.一つは,SEDにFLを適用し,その際にどれだけ精度を維持できるか.もう一つはFLのどの集約アルゴリズムが家庭内環境に適切か,である.これらの取り組みを通じて,SEDを手掛かりとした異常検知の実現に向けた研究を進める.
システム構成
が足りないのでは
事前学習済みモデル(ASTベース) + CRNNの構成を検討
音響イベント検出における事前学習済みモデルのどれか
CRNNも内容を考える必要がある
cf.
マルチラベル音響イベント検出をサーベイ
音響イベント検出モデルの良さげな論文を集める
実験計画
評価方法
進捗
参考文献