JVSデータによるWaevGlowの再学習

はじめに

前回までJVSコーパス1、JSUTコーパス2を用いて、
Flowtron3を学習してきた。 今回はメルスペクトルグラムから
音声を復元するWaveGlow4部分の再学習を行った。

現状の課題

これまで検討してきたTTS (Text To Speech)システムは、
Flowtroonによるメルスペクトルグラムを生成し、 
WaveGlowによる音声復元を行うというものである。


これまでは主にFlowtron部分の検討を行い、
WaveGlow 側は公開されている5英語で
学習されたモデルをそのまま用い、
それなりに音声復元はできていたのだが、
復元音声と元音声の差異が多少気になってきたので、
再学習することとした。

学習条件

  • 学習データ
    • JVSデータ 95文章 (全話者)
  • 評価データ
    • JVSデータ 5文章 (全話者)

waveglownの学習パラメータはデフォルトのまま変更なし。
公開されている英語の学習済みモデルを初期値として、
fine-tuningした。

結果

NLL比較

スピーカー単位で文章平均のNLLを比較すると下図のようになる。 f:id:nakamrnk:20200717093902j:plain

青線が元の英語で学習したWaveGlowによるNLL。
橙線がfine-tuningしたWaveGlowによるNLL。

すべてのスピーカーにおいてfine-tuningによるNLLの減少が見られた。

話者ごとのNLLのヒストグラムを男女ごとに表示すると以下のようになる。
f:id:nakamrnk:20200717094328j:plain

また、話者間平均のNLLは以下の表のようになる。

NLL base jvs diff
F -5.32574 -7.4118 2.08607
M -5.77699 -7.49901 1.72202

男女問わずNLLが同程度まで減少しているが、女性側のほうが
減少量は大きい。元のWaveGlowは女性話者によるデータセット
であるLSSpeechデータセット6で学習されているはずなのに
女性側のほうがNLLがやや高いのには多少疑問が残る。
(日本語と英語の違いの問題?)

音声比較

特に違いが大きかったいくつかのスピーカーにおいて
fine-tuningによる変化を示す。

文章 : VOICEACTRESS100_098
乾ドックに入渠して、オーバーホールすべきかどうか、パフォーマンスがチェックされた。

JVS009

fine-tuning前

fine-tuning後

fine-tuning後のほうが男性らしい声となっており、
実際のデータにも近く感じた。

JVS015

fine-tuning前

fine-tuning後

fine-tuning前のほうがややかすれが多く、
後のほうが元データに近く感じた。

まとめ

WaveGlowをJVSデータで再学習することで日本語音声に関しては
復元性能が上がっているように感じる。
ただwaveglowはモデルサイズが重いのでもう少し軽くて同じくらい
の性能のモデルがあればいいのにと思った。

参考文献