JVSデータによるWaevGlowの再学習

前回までJVSコーパス¹、JSUTコーパス²を用いて、
Flowtron³を学習してきた。今回はメルスペクトルグラムから
音声を復元するWaveGlow⁴部分の再学習を行った。

これまで検討してきたTTS (Text To Speech)システムは、
Flowtroonによるメルスペクトルグラムを生成し、　
WaveGlowによる音声復元を行うというものである。

これまでは主にFlowtron部分の検討を行い、
WaveGlow 側は公開されている⁵英語で
学習されたモデルをそのまま用い、
それなりに音声復元はできていたのだが、
復元音声と元音声の差異が多少気になってきたので、
再学習することとした。

waveglownの学習パラメータはデフォルトのまま変更なし。
公開されている英語の学習済みモデルを初期値として、
fine-tuningした。

スピーカー単位で文章平均のNLLを比較すると下図のようになる。 f:id:nakamrnk:20200717093902j:plain

青線が元の英語で学習したWaveGlowによるNLL。
橙線がfine-tuningしたWaveGlowによるNLL。

すべてのスピーカーにおいてfine-tuningによるNLLの減少が見られた。

話者ごとのNLLのヒストグラムを男女ごとに表示すると以下のようになる。
f:id:nakamrnk:20200717094328j:plain

また、話者間平均のNLLは以下の表のようになる。

NLL	base	jvs	diff
F	-5.32574	-7.4118	2.08607
M	-5.77699	-7.49901	1.72202

男女問わずNLLが同程度まで減少しているが、女性側のほうが
減少量は大きい。元のWaveGlowは女性話者によるデータセット
であるLSSpeechデータセット⁶で学習されているはずなのに
女性側のほうがNLLがやや高いのには多少疑問が残る。
(日本語と英語の違いの問題?)

特に違いが大きかったいくつかのスピーカーにおいて
fine-tuningによる変化を示す。

文章 : VOICEACTRESS100_098
乾ドックに入渠して、オーバーホールすべきかどうか、パフォーマンスがチェックされた。

fine-tuning前

fine-tuning後

fine-tuning後のほうが男性らしい声となっており、
実際のデータにも近く感じた。

fine-tuning前

fine-tuning後

fine-tuning前のほうがややかすれが多く、
後のほうが元データに近く感じた。

WaveGlowをJVSデータで再学習することで日本語音声に関しては
復元性能が上がっているように感じる。
ただwaveglowはモデルサイズが重いのでもう少し軽くて同じくらい
の性能のモデルがあればいいのにと思った。

ML Over the Horizon