音声認識
音声合成
音声工学・音響工学
音源分離
音楽生成
音声処理
オライリー「音声認識」
第1章 音声とは
音の知覚
音声の生成
音韻と音素
第2章 音声分析
前処理
音声特徴量
音声特徴量の量子化
第3章 音声認識とは
音声認識の分類
DPマッチング
第4章 隠れマルコフモデル
確率モデルを用いたパターン認識
マルコフ過程
隠れマルコフモデルとは
音声認識のための隠れマルコフモデル
HMMを用いたパターン認識
第5章 言語モデル
言語の複雑さの尺度
確率的言語モデル
形態素解析
第6章 大語彙連続音声認識
サブワード認識単位を用いた学習・認識
音素文脈決定木を用いたクラスタリング
発音辞書
探索技術
識別学習
第7章 耐雑音音声認識
雑音とは
加算性雑音
乗算性雑音
非定常雑音への対応
第8章 話者適応と話者認識
話者適応とは
事後確率最大化法
最尤線形回帰法
話者正規化
話者認識とは
i-vectorを用いた話者照合
第9章 深層学習
ニューラルネットワーク
誤差逆伝播法
ニューラルネットワークによる音声認識
音声認識のための深層学習
音声認識の要素技術における深層学習
End-to-End学習
今後の展望
音声合成
https://twitter.com/zassouEX/status/1592074532700835845?s=20&t=2mWBQBiMOKCNZVoGQ5ujZA
writeout ai
https://twitter.com/nisiwako/status/1635049322554458116?s=20
https://twitter.com/Yamkaz/status/1636507007913189377?s=20
650,000時間の英語オーディオデータで訓練された最先端の音声認識モデル。様々なデータにわたって人間レベルの性能と堅牢性を実現。他のオープンソースor商用の音声認識モデルより堅牢で、ノイズが多いデータでも平均43%エラーが減少
survey論文
https://arxiv.org/pdf/2106.15561.pdf
bark-with-voice-clone
https://github.com/serp-ai/bark-with-voice-clone
Squeezeformer: An Efficient Transformer for Automatic Speech Recognition
https://github.com/kssteven418/Squeezeformer
mimi API
https://mimi.readme.io/docs/api-endpoint
MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark
https://arxiv.org/abs/2410.19168
音声生成AI・ボイスクローンの悪用対策
https://asj-kyushu.acoustics.jp/wordpress/wp-content/uploads/2025/07/オンライン講演資料-20250702.pdf