卒論のサーベイ
from 卒論の全体を把握する
卒論に関する研究のサーベイ
研究分野: 主要な論文を書けてない
> Ambient Assisted Living
> Human Activity Recognition
> Sound Event Detection
音声認識に関して軽くまとめた記事があった
https://qiita.com/shu_O/items/d6b0d9f1a7e58269d82e
https://www.mdpi.com/2227-7390/13/11/1724
マルチモーダルの言及があるらしい. しかしテーマは予知保全
Federated Learning
Pythonと使用ライブラリ
PyTorch
Flower
> Numpy,Pandas,Librosa,Wandb: 説明してない
DCASE 2024で用いたスコア計算の諸々
uv
信号処理
基礎知識など
/research-custard/卒論における信号処理について考える
> SED関連モデル: 全然説明を書けてない + 主要な論文を挙げられてない
sedのチュートリアル論文に途中までよくまとまっている
/research-custard/sedチュートリアルを読む
CRNN
論文: https://arxiv.org/abs/1702.06286
音響イベント検出をCNN + RNNで行う発想
CNN単独だとフレーム単位の情報だけを学習し,時間的な特徴が失われる
そこでRNNを後段に配置し,フレームごとに寸断された特徴について,時間的な解釈を行う
CNN
SEDを扱うCNNの情報を知りたい
RNN
Transformer
https://qiita.com/omiita/items/07e69aef6c156d23c538
https://arxiv.org/abs/1706.03762
Conformer
正式名称はConvolution-augmented Transformer for Speech Recognition
Transformerに畳み込み層を追加したモデル
https://arxiv.org/abs/2005.08100
環境音認識のコンペティションDCASE2020で世界1位を獲得しました
BEATs
正式名称はBidirectional Encoder representation from Audio Transformers
論文: https://arxiv.org/abs/2212.09058