音声信号処理について学ぶ
はじめに
このシリーズはこれまであまり触れてきたことがない機械学習分野を学ぶ
シリーズの第二弾で音響信号処理(ASP)について学ぶ。
今回は音声信号処理関連のDeep Learningを調査する。
Deep Learningにおける音声信号認識
参考: 音響信号処理におけるDeep Learningのレビュー論文
https://arxiv.org/abs/1905.00078
- 音響情報は元は1次元だが時間と周波数空間の2次元に展開されることが多い
- 手法
- 問題の分類
- 入力は音声信号で固定だが、出力の種類・長さにより分類・回帰・変換などに別れる。
- 音響特徴量
- deep learningにより特徴量抽出と問題に対する最適化が一体となった
- 周波数削減はMFCCにおいてDCTを使わない log-mel spectrum がよく使われる
- モデル
- 複数層のCNNやRNNが使われる
- CNNの視野(receptive field)を確保するためdilated convolutionが使われる
- 長い系列の依存関係を扱うためにRNNも利用される
- 異なる系列間(言語-音声、音声-音声など)の変換にはseq2seqモデルが用いられる
- データ
- 画像系に比べると大規模データは少ない
- 英語のデータセットは比較的多い
- 少ないデータに対する転移学習も行われている
- 評価
- 問題の分類
- 応用
まとめと今後
今回は音声信号関連のDeep Learningのレビュー論文を読んだ。
理解できない単語が多いため次回以降に理解していきたい。
text to speech関連がおもしろそうなのでそれを中心に調査するつもりだ。