卒論のサーベイ - main-custard

卒論のサーベイ

from 卒論の全体を把握する

卒論に関する研究のサーベイ

研究分野: 主要な論文を書けてない

> Ambient Assisted Living

> Human Activity Recognition

> Sound Event Detection

音声認識に関して軽くまとめた記事があった

https://qiita.com/shu_O/items/d6b0d9f1a7e58269d82e

https://www.mdpi.com/2227-7390/13/11/1724

マルチモーダルの言及があるらしい. しかしテーマは予知保全

Federated Learning

Pythonと使用ライブラリ

> Numpy,Pandas,Librosa,Wandb: 説明してない

DCASE 2024で用いたスコア計算の諸々

基礎知識など

/research-custard/卒論における信号処理について考える

> SED関連モデル: 全然説明を書けてない + 主要な論文を挙げられてない

sedのチュートリアル論文に途中までよくまとまっている

/research-custard/sedチュートリアルを読む

論文: https://arxiv.org/abs/1702.06286

音響イベント検出をCNN + RNNで行う発想

CNN単独だとフレーム単位の情報だけを学習し,時間的な特徴が失われる

そこでRNNを後段に配置し,フレームごとに寸断された特徴について,時間的な解釈を行う

SEDを扱うCNNの情報を知りたい

https://qiita.com/omiita/items/07e69aef6c156d23c538

https://arxiv.org/abs/1706.03762

正式名称はConvolution-augmented Transformer for Speech Recognition

Transformerに畳み込み層を追加したモデル

https://arxiv.org/abs/2005.08100

環境音認識のコンペティションDCASE2020で世界1位を獲得しました

正式名称はBidirectional Encoder representation from Audio Transformers

論文: https://arxiv.org/abs/2212.09058