日本語CTRLを1から学習する - 8

はじめに

前回GCP上で日本語CTRLを学習し始めた。
今回は学習したモデルの途中経過の確認を行う。
学習1日目。

学習途中経過

現状10000 Iterが2時間40分ほどで進んでいるので、
1 step に1 s程度かかっている。 学習速度は学習開始からほぼ一定。
現時点で95000 stepのログを確認。 (ログは5000ステップごとに出力)

モデル確認

モデルの確認はGoogle Colaboratory上で行う。
Cloud Storageに保存されたcheckpointを Colaboratory上にコピーする。

from google.colab import auth
auth.authenticate_user()

model_name = "checkpoint_0001_00090000.pth"

!gcloud config set project {project_id}
!gsutil ls
!gsutil -m cp -r gs://{bucket_name}/kumo_model/{model_name} ./
!ls

推論結果

現状最新のモデルは90000 Iterのモデル。

  • 青空 : 青空文庫の制御コード
  • 知識 : Wikipediaの制御コード
  • 訳 : JESCの制御コード
明日世界が滅ぶなら
青空 明日世界が滅ぶなら、この世界は滅ぶ。 明日世界が滅ぶなら、世界は滅ぶ。 明日世界が滅ぶなら、世界は滅ぶ。 明日世界が滅ぶなら、世界は滅ぶ。 明日世界が滅ぶなら、世界は滅ぶ。 明日世界が滅ぶなら、世界は滅ぶ。 明日世界が滅ぶなら、世界は滅ぶ。 明日世界が滅ぶなら
知識 明日世界が滅ぶなら 『明日世界が滅ぶなら』(あしたせかいがめ)は、日本の歌手、宮沢りえの2枚目のオリジナルアルバム。 CDジャーナルは「『明日世界が滅ぶなら』は、日本の音楽を、日本の音楽を、日本の音楽を、日本の音楽を、日本の音楽を、日本の音楽を、日本の音楽を、日本の音楽を、日本の音楽を、日本の音楽を、日本の音楽を、日本の音楽を、日本の
明日世界が滅ぶなら 明日世界が滅ぶなら 明日世界が滅ぶなら 明日世界が滅ぶなら 明日世界が滅ぶなら 明日世界が滅ぶなら 明日世界が滅ぶなら 明日世界が滅ぶなら 明日世界が滅ぶなら 明日世界が滅ぶなら 明日世界が滅ぶなら 明日世界が滅ぶなら 明日世界が滅ぶなら 明日世界が滅ぶなら
また会えたらいいね。
青空 また会えたらいいね。 私 あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた、あなた
知識 また会えたらいいね。」と、その提案を断った。 翌日、彼は、その提案を撤回した。 翌日、彼は、その提案を撤回した。 翌日、彼は、その提案を撤回した。 翌日、彼は、その提案を撤回した。 翌日、彼は、その提案を撤回した。 翌日、彼は、その提案を撤回した。 翌日、彼は、その提案を撤回した。 翌日、彼は、その提案
また会えたらいいね。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい。 はい
そうだ京都に行こう。
青空 そうだ京都に行こう。 京都に行こう。 京都に行こう。 京都に行こう。 京都に行こう。 京都に行こう。 京都に行こう。 京都に行こう。 京都に行こう。 京都に行こう。 京都に行こう。 京都に行こう。 京都に行こう。 京都に行こう。 京都に行こう。 京都に行こう。 京都に行こう。 京都に行こう。 京都に行こう。 京都に
知識 そうだ京都に行こう。」と、その旨を伝えた。 京都に行こうと、京都に行こうと、京都に行こうと、京都に行こうと、京都に行こうと、京都に行こうと、京都に行こうと、京都に行こうと、京都に行こうと、京都に行こうと、京都に行こうと、京都に行こうと、京都に行こうと、京都に行こうと、京都に行こうと、京都に行こうと、京都に行こうと、
そうだ京都に行こう。 俺は 京都に行こう。 俺は 京都に行こう。 俺は 京都に行こう。 俺は 京都に行こう。 俺は 京都に行こう。 俺は 京都に行こう。 俺は 京都に行こう。 俺は 京都に行こう。 俺は 京都に行こう。 俺は 京都に行こう。 俺は 京都に行こう。 俺は 京都に行こう。 俺は 京都に行こう。 俺は
コンピュータは偉大な発明である。
青空 コンピュータは偉大な発明である。 コンピューターは、その発明の最大の特徴である。 コンピューターは、その発明の最大の特徴である。 コンピューターは、その発明の最大の特徴である。 コンピューターは、その発明の最大の特徴である。 コンピューターは、その発明の最大の特徴である。 コンピューターは、その発明の最大の特徴である。 コンピューターは、その発明の最大の特徴である。 コンピューターは、その発明の最大の特徴である。 コンピューターは、
知識 コンピュータは偉大な発明である。 コンピュータは、コンピュータの発明を、コンピュータの発明を、コンピュータの発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明を、発明
コンピュータは偉大な発明である。 我々は 新しい発明を 発明した。 我々は 新しい発明を 発明した。 新しい発明は 新しい発明を 発明した。 新しい発明は 新しい発明を 発明した。 新しい発明は 新しい発明を 発明した。 新しい発明は 新しい発明を 発明した。 新しい発明は 新しい発明を 発明した。 新しい発明は 新しい発明を 発明した。

現状はほとんど学習が進んでいないと思われる。

  • 序文に続いて少しなにか述べた後に同じ文章の繰り返しループとなる。
  • 制御コードごとの違いは生じているが、まだデータセットの個性はでていない。
  • Wikipediaの制御コードが比較的序文につなげた文章を生成できている。

参考文献