音声信号処理について学ぶ

はじめに

このシリーズはこれまであまり触れてきたことがない機械学習分野を学ぶ
シリーズの第二弾で音響信号処理(ASP)について学ぶ。
今回は音声信号処理関連のDeep Learningを調査する。

Deep Learningにおける音声信号認識

参考: 音響信号処理におけるDeep Learningのレビュー論文
https://arxiv.org/abs/1905.00078

  • 音響情報は元は1次元だが時間と周波数空間の2次元に展開されることが多い
    • 2軸は等価ではないため画像処理とは異なる
    • 自然言語処理(NLP)とは入力の連続性が異なる
  • 手法
    • 問題の分類
      • 入力は音声信号で固定だが、出力の種類・長さにより分類・回帰・変換などに別れる。
    • 音響特徴量
      • deep learningにより特徴量抽出と問題に対する最適化が一体となった
      • 周波数削減はMFCCにおいてDCTを使わない log-mel spectrum がよく使われる
    • モデル
      • 複数層のCNNやRNNが使われる
      • CNNの視野(receptive field)を確保するためdilated convolutionが使われる
      • 長い系列の依存関係を扱うためにRNNも利用される
      • 異なる系列間(言語-音声、音声-音声など)の変換にはseq2seqモデルが用いられる
    • データ
      • 画像系に比べると大規模データは少ない
      • 英語のデータセットは比較的多い
      • 少ないデータに対する転移学習も行われている
    • 評価
      • 音声認識ではWord Error Rate(WER)が評価指標
      • 2値分類ならばAUC, F値なども利用される   - mean opinion score(MOS)という主観に基づいた評価もある
  • 応用
    • 解析
      • スピーチ
      • 音楽
        • スピーチよりも多様なデータを音源やタスクを含んでいる
        • 前処理やアーキテクチャなどの選択はまだ検討の余地がある
      • 環境音
        • 場面分類・イベント検知・タギングなどのタスクがある
    • 合成・変換
      • 音源分離 : 音声から発生源を分離する
      • 音響改善 : 音質を向上させる
      • 生成 : 文字などからスピーチデータを生成する

まとめと今後

今回は音声信号関連のDeep Learningのレビュー論文を読んだ。
理解できない単語が多いため次回以降に理解していきたい。
text to speech関連がおもしろそうなのでそれを中心に調査するつもりだ。