JVSデータによるWaevGlowの再学習
はじめに
前回までJVSコーパス1、JSUTコーパス2を用いて、
Flowtron3を学習してきた。 今回はメルスペクトルグラムから
音声を復元するWaveGlow4部分の再学習を行った。
現状の課題
これまで検討してきたTTS (Text To Speech)システムは、
Flowtroonによるメルスペクトルグラムを生成し、
WaveGlowによる音声復元を行うというものである。
これまでは主にFlowtron部分の検討を行い、
WaveGlow 側は公開されている5英語で
学習されたモデルをそのまま用い、
それなりに音声復元はできていたのだが、
復元音声と元音声の差異が多少気になってきたので、
再学習することとした。
学習条件
- 学習データ
- JVSデータ 95文章 (全話者)
- 評価データ
- JVSデータ 5文章 (全話者)
waveglownの学習パラメータはデフォルトのまま変更なし。
公開されている英語の学習済みモデルを初期値として、
fine-tuningした。
結果
NLL比較
スピーカー単位で文章平均のNLLを比較すると下図のようになる。
青線が元の英語で学習したWaveGlowによるNLL。
橙線がfine-tuningしたWaveGlowによるNLL。
すべてのスピーカーにおいてfine-tuningによるNLLの減少が見られた。
話者ごとのNLLのヒストグラムを男女ごとに表示すると以下のようになる。
また、話者間平均のNLLは以下の表のようになる。
NLL | base | jvs | diff |
---|---|---|---|
F | -5.32574 | -7.4118 | 2.08607 |
M | -5.77699 | -7.49901 | 1.72202 |
男女問わずNLLが同程度まで減少しているが、女性側のほうが
減少量は大きい。元のWaveGlowは女性話者によるデータセット
であるLSSpeechデータセット6で学習されているはずなのに
女性側のほうがNLLがやや高いのには多少疑問が残る。
(日本語と英語の違いの問題?)
音声比較
特に違いが大きかったいくつかのスピーカーにおいて
fine-tuningによる変化を示す。
文章 : VOICEACTRESS100_098
乾ドックに入渠して、オーバーホールすべきかどうか、パフォーマンスがチェックされた。
JVS009
fine-tuning前
fine-tuning後
fine-tuning後のほうが男性らしい声となっており、
実際のデータにも近く感じた。
JVS015
fine-tuning前
fine-tuning後
fine-tuning前のほうがややかすれが多く、
後のほうが元データに近く感じた。
まとめ
WaveGlowをJVSデータで再学習することで日本語音声に関しては
復元性能が上がっているように感じる。
ただwaveglowはモデルサイズが重いのでもう少し軽くて同じくらい
の性能のモデルがあればいいのにと思った。