音声信号処理について学ぶ

はじめに

このシリーズはこれまであまり触れてきたことがない機械学習分野を学ぶ
シリーズの第二弾で音響信号処理(ASP)について学ぶ。
今回は音声信号処理関連のDeep Learningを調査する。

Deep Learningにおける音声信号認識

参考: 音響信号処理におけるDeep Learningのレビュー論文
https://arxiv.org/abs/1905.00078

音響情報は元は1次元だが時間と周波数空間の2次元に展開されることが多い
- 2軸は等価ではないため画像処理とは異なる
- 自然言語処理(NLP)とは入力の連続性が異なる
手法
- 問題の分類
  - 入力は音声信号で固定だが、出力の種類・長さにより分類・回帰・変換などに別れる。
- 音響特徴量
  - deep learningにより特徴量抽出と問題に対する最適化が一体となった
  - 周波数削減はMFCCにおいてDCTを使わない log-mel spectrum がよく使われる
- モデル
  - 複数層のCNNやRNNが使われる
  - CNNの視野(receptive field)を確保するためdilated convolutionが使われる
  - 長い系列の依存関係を扱うためにRNNも利用される
  - 異なる系列間(言語-音声、音声-音声など)の変換にはseq2seqモデルが用いられる
- データ
  - 画像系に比べると大規模データは少ない
  - 英語のデータセットは比較的多い
  - 少ないデータに対する転移学習も行われている
- 評価
  - 音声認識ではWord Error Rate(WER)が評価指標
  - 2値分類ならばAUC, F値なども利用される　 - mean opinion score(MOS)という主観に基づいた評価もある
応用
- 解析
  - スピーチ
    - 音声認識 : すでに実用化されている
  - 音楽
    - スピーチよりも多様なデータを音源やタスクを含んでいる
    - 前処理やアーキテクチャなどの選択はまだ検討の余地がある
  - 環境音
    - 場面分類・イベント検知・タギングなどのタスクがある
- 合成・変換
  - 音源分離 : 音声から発生源を分離する
  - 音響改善 : 音質を向上させる
  - 生成 : 文字などからスピーチデータを生成する

まとめと今後

今回は音声信号関連のDeep Learningのレビュー論文を読んだ。
理解できない単語が多いため次回以降に理解していきたい。
text to speech関連がおもしろそうなのでそれを中心に調査するつもりだ。