音を用いた行動認識モデルの知識蒸留による軽量化および精度向上
from 行動認識のサーベイ
目的意識
コストのかからない見守り機器作成が目標みたい
目的は介護における人材不足の解消,緩和
介護で絶対的に人が不足している状況
増える見込みもあまりない
機器による補助が推進されている
見守り機器は効果を上げる一方,コストが高く導入に障壁がある
コストのかからない方法を実現したい
行動認識したいとは言っているが,具体的に何をしたいのかはよくわからない
夜間の巡回を例にとっている
最終的には異常検知が目標なのか?
短期的な目標は低コストで利用可能な監視システムの導入
長期的には?
見守り支援機器でやりたいことが曖昧
発表資料では意図的に抜けていそう
論文を見に行く
見たけどよくわからない
言及していない
行動認識の含意が広すぎる
入居者の異常を検知して通達?
介護施設が念頭に置かれているためそう考えた
介護用の見守り支援機器の内容が不透明
何を目指すのかよく分からない
介護用のため生活音を用いる
生活音から異常を検知する方向性だと,いつかに言っていた
モデルの軽量化と精度向上を報告している
その後の展望は特に語っていない
長期的には,ここからより具体的な環境に適応させていくと思われる
Tiny Transformerモデル
音をメルスペクトログラムに変換
BatchNormalization: 正規化
線形変換
Positional Encoding: 特徴量に時間情報を付加
encoderで特徴量を埋め込み(embedding)?
音の特徴量を数値化する?
Multi-head attension
Feedforward
GlobalAveragePooling1D: 情報を圧縮
各ベクトルの平均値を取る
ここでは時間ごとに平均化
最後にSoftMax