stylegan2による猫画像生成 - 2

はじめに前回 stylegan21 により Oxford-IIIT2の猫画像を学習した。今回は前処理を少し変更して再学習した。設定や用語等は前回参照。前処理の変更前回はannotation情報を利用して、猫が写っている部分以外は白塗りになるように学習したが、輪郭部分が…

2020-07-29

stylegan2による猫画像生成

はじめに GANの一種であるstylegan21を使い、 Oxford-IIIT2の猫画像を学習して、結果を解析した。 stylegan2 Generative Adversarial Network (GAN)3は2つのネットワークが競い合うように学習することでリアルな画像生成を行うアルゴリズムである。オリジ…

2020-07-27

Gradient Accumulation と Normalization

はじめに batch sizeは学習の安定性やモデル性能に大きな影響を与えるパラメータである。大きなbatch sizeは学習を安定化するが、GPUのメモリを使い果たしてしまう。 GPT31などの近年の大規模モデルは複数のGPUに分散して非常に大きな batch sizeをとってお…

2020-07-21

3D Deep Learning について学ぶ - pytorch3d

はじめに 3D オブジェクトを扱うDeep Learning技術について知りたいと思ったので、pytorch3d1のチュートリアルを行った。概要 1次元的なデータを取り扱う自然言語処理や音声信号処理、 2次元的なデータを取り扱う画像処理だけでなく、 3Ｄオブジェクトを取…

2020-07-17

JVSデータによるWaevGlowの再学習

はじめに前回までJVSコーパス1、JSUTコーパス2を用いて、 Flowtron3を学習してきた。今回はメルスペクトルグラムから音声を復元するWaveGlow4部分の再学習を行った。現状の課題これまで検討してきたTTS (Text To Speech)システムは、 Flowtroonによるメ…

2020-07-15

Flowtron でJVS+JSUTデータを学習

はじめに前回 Flowtorn1というText To Speechアルゴリズムにより日本語音声コーパスであるJVSコーパス2の学習を行った。今回は同じく日本語の音声コーパスである、JSUTコーパス3を追加して学習を行い性能変化を検証した。前回の問題点前回ある程度Flo…

2020-07-11

FlowtronでJVSデータを学習

はじめに FlowtronはFlow-baseのText to Speech (TTS)アルゴリズムである1。今回は日本語の複数話者コーパスであるJVSコーパス2によってこの Flowtronを学習してみた。 Flowtron TTSは文章を入力として、音声を合成するタスクである。 Tacotron23などが有名…

ML Over the Horizon

2020-07-01から1ヶ月間の記事一覧