院試の発表資料の叩き台を作る
計画書との差異
異常イベントを気にしていない
ひとまず一般的なSEDの実現に取り組む
これらが終わり,必要なら異常イベントのデータも使用,という方針に変更したと伝えれば良い
あとなんだろう?
質疑応答対応集が必要: 突っ込まれそうな部分を塞ごう!
データ異質性
資料の順番に疑問が残る
データセットに含まれるラベル
DESEDは10個
Alarm/bell/ringing 警報/ベル/何か鳴る音?
Blender ブレンダー/粉砕機?
Cat 猫の鳴き声
Dishes 料理
Dog 犬の鳴き声
Electric shaver/toothbrush 電気シェーバー/歯ブラシ
Frying 揚げ物
Running water 流水
Speech 人の話し声
Vacuum cleaner 掃除機
residential area
bird singing
car
children
people speaking
people walking
wind blowing
city area
brakes squeakiring
car
children
large vehicle
people speaking
people walking
Birds singing
Car
People talking
Footsteps
Children voices
Wind blowing
Brakes squeaking
Large vehicle
Cutlery and dishes
Metro approaching
Metro leaving
結局何クラスなんだろう?
背景: AALと音響イベント検出
テーマ概要: 前回の発表資料を流用
少子高齢化で日本の医療・介護の負担は増大
参考資料候補
2023wsr-fullreport
Health at a Glance 2023
自立的な生活を情報技術で支援し,在宅介護で問題を解決するAAL(Ambient Assisted Living) が存在
前提として,支援で自立的な生活を行える状態にある方を対象とする
センサで行動認識
健康状態の把握や異常兆候の早期検出などを実現
従来手法の課題
カメラ
設置費用が高い
プライバシー受容性に難あり
ウェアラブルセンサ
充電の手間や装着し忘れ
* 認知機能に不安のある方が対象の場合,特に注意が必要 利用者への侵襲性(身体的・精神的負担)
これらの課題をSEDで解決
SEDは、いつ、どのような音(イベント)が発生したかを特定する技術
利点
カメラに比べ安価でプライバシー受容性が高い
咳や転倒音など、音特有の異常兆候を検出可能
機械学習を用いることで、多様な家庭環境に柔軟に対応できるモデル構築が期待される
いつ、どんな行動があったかをSEDで理解し,説明性のある異常検知モデル構築を目指す
AALの課題,研究課題(卒論)
プライバシー課題の解決策:連合学習 (FL) の導入
AALでは個人の生活空間というプライバシー性の高いデータを扱うため、サーバに集約したくない
従来の中央集権的な機械学習手法では集める必要がある
この課題に対し、本研究では連合学習(FL)の適用を提案する
FLはローカルにデータを留めたまま学習し、モデルの更新情報のみをサーバで集約する分散学習手法
生データを外部に出すことなく、プライバシーを保護しながら高精度なモデル構築を目指す
研究目的と問い
研究目的
高齢者介護現場向けの、安価かつ高精度でプライバシーに配慮した異常検知・通知システムの構築を目指す
各居室に設置したデバイスで環境音を収集・分析し、異常イベントやその兆候をリアルタイムに検知・通知することで、介護者の負担軽減と要介護者の安全確保に貢献する
イベントが起きる前に防ぐ,予防的アプローチを取りたい
研究計画
本研究の流れとして
SED-FL構築
卒論
音響イベント検出の精度向上が可能か
FL適用時,非適用時に比べて少し落ちる程度の精度を出せるか
本研究における問い(卒論)
1. 中央集権的な学習手法と比較して、連合学習はSEDタスクにおいてどの程度の精度を維持できるか?
2. 家庭内の音響データのような不均一(Non-IID)なデータ環境に対し、どの連合学習アルゴリズム(例:FedAVG, FedProx, SCAFFOLD)が最も適切か?
院
SED-FLについて,ローカルごとのデータ異質性に対処し,精度を高められるか
SED-FLをエッジデバイスで動作できるか,小型化モデルで十分な精度を得られるか
それ以降
音響イベントの発生頻度や持続時間など,時間的文脈による異常検知
普段は静かな夜に足音が聞こえる,といった背景の情報を加味した異常検知を
学部卒業研究:基礎的なSEDモデルの構築
公開データセット(DESED, MAESTRO等)でモデルを構築
モデルアーキテクチャの検討:事前学習済みモデル、CNN、RNNの最適な構成を模索
学習戦略の検討:半教師あり学習(Mean-Teacher, FixMatch等)を導入し、ラベルなしデータを活用
異質性への対処: FedAvgの他にFedProxなどを検証し,精度を比較,評価する
大学院前期課程(1年目)
Non-IIDデータへの対応とパーソナライズ
目標: FL環境下での精度向上と、各家庭環境への最適化
Non-IIDデータへの対応
クライアント毎の音響特性や行動パターンの違いによる精度低下を防ぐため、FedProxなどの手法を検証する
モデルのパーソナライズ
クライアントごとに最適化されたモデルを提供する手法を検討する
大学院前期課程(2年目):エッジデバイスへの実装とリアルタイム性の追求
リソース制約の厳しいIoTデバイス上での運用を目指す
モデルの効率化
重みの量子化や連合分割学習(FSL)などを検討
リアルタイム性と計算リソースの制約を両立
FLの理論的探究
モデル統合メカニズムが精度に与える影響を分析
より堅牢なFLアルゴリズムの開発に貢献す
異常検知はこれ以降
評価方法
データセット: DCASEチャレンジで利用されるDESEDなどの公開データセットを使用
比較対象: 中央集権的に学習させたベースラインモデルや、関連研究のSOTAモデルと比較
評価指標: DCASE 2024で用いられるイベントベースのF1スコアや、PSDS (Polyphonic Sound Detection Score)
精度の基準: 中央集権的手法と同等か、わずかに劣る程度の精度
提案手法の意義と倫理的配慮
意義:
非侵襲的な音響センシングとFLを融合し、プライバシーに配慮した実用的な見守りシステムの普及を促進する
介護負担の軽減と高齢者の安全維持に社会的に貢献する
FL分野の学術的発展に寄与する
倫理的配慮:
データ最小化の原則に基づき、生音声はデバイス上で特徴抽出を行うなど、機微な情報の扱いに最大限配慮する