2020-07-01から1ヶ月間の記事一覧

stylegan2による猫画像生成 - 2

はじめに 前回 stylegan21 により Oxford-IIIT2の猫画像を学習した。 今回は前処理を少し変更して再学習した。 設定や用語等は前回参照。 前処理の変更 前回はannotation情報を利用して、猫が写っている部分以外は 白塗りになるように学習したが、輪郭部分が…

stylegan2による猫画像生成

はじめに GANの一種であるstylegan21を使い、 Oxford-IIIT2の猫画像を学習して、結果を解析した。 stylegan2 Generative Adversarial Network (GAN)3は2つのネットワークが 競い合うように学習することでリアルな画像生成を行うアルゴリズムである。 オリジ…

Gradient Accumulation と Normalization

はじめに batch sizeは学習の安定性やモデル性能に大きな影響を与えるパラメータである。 大きなbatch sizeは学習を安定化するが、GPUのメモリを使い果たしてしまう。 GPT31などの近年の大規模モデルは複数のGPUに分散して非常に大きな batch sizeをとってお…

3D Deep Learning について学ぶ - pytorch3d

はじめに 3D オブジェクトを扱うDeep Learning技術について知りたいと 思ったので、pytorch3d1のチュートリアルを行った。 概要 1次元的なデータを取り扱う自然言語処理や音声信号処理、 2次元的なデータを取り扱う画像処理だけでなく、 3Dオブジェクトを取…

JVSデータによるWaevGlowの再学習

はじめに 前回までJVSコーパス1、JSUTコーパス2を用いて、 Flowtron3を学習してきた。 今回はメルスペクトルグラムから 音声を復元するWaveGlow4部分の再学習を行った。 現状の課題 これまで検討してきたTTS (Text To Speech)システムは、 Flowtroonによるメ…

Flowtron でJVS+JSUTデータを学習

はじめに 前回 Flowtorn1というText To Speechアルゴリズムにより 日本語音声コーパスであるJVSコーパス2の学習を行った。 今回は同じく日本語の音声コーパスである、JSUTコーパス3を追加して 学習を行い性能変化を検証した。 前回の問題点 前回 ある程度Flo…

FlowtronでJVSデータを学習

はじめに FlowtronはFlow-baseのText to Speech (TTS)アルゴリズムである1。 今回は日本語の複数話者コーパスであるJVSコーパス2によってこの Flowtronを学習してみた。 Flowtron TTSは文章を入力として、音声を合成するタスクである。 Tacotron23などが有名…