日本語CTRLを1から学習する - 13

はじめに

前回 前処理方法を変更して再学習を開始した。
現状250000ステップまで進んだのでここまでの結果をまとめる。

推論結果

前回同様、青空文庫データの「庭をつくる人」(室生犀星)の序文入力結果。太字は入力文 。

元文章の序文

つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の磧で暮した。河原の中にも流れとは別な清水が湧いていて、そこを掘り捌《さ》いて小さいながれ[#「ながれ」に傍点]をわたくしは毎日作って遊んだものである。ながれ[#「ながれ」に傍点]は幅二尺くらい長さ三間くらいの、砂利をこまかに敷き込み二た側へ石垣のまねをつくり、それを流れへ引くのであったが、上手《かみて》の清水はゆたかに湧きながれて、朝日は浅いながれ[#「ながれ」に傍点]の小砂利の上を嬉々と戯れて走っているようであった。自分はところどころに小さい橋をつくり、石垣には家を建て、草を植え花を配したものであった。此の頃になってつれづれ草ばかりでなく、水は浅く川はば一ぱいにながれて居る方がよいと思った。水というものは生きているもので、どういう庭でも水のないところは息ぐるしい。庭にはすくなくとも一ところに水がほしい。つくばい[#「つくばい」に傍点](手洗鉢)の水だけでもよいのである。乾いた庭へ這入ると息づまりがしてならぬ。

50000 ステップの結果
つれづれ草に
青空 つれづれ草に芽ぐみし ⁇ に 春の日をむかへども 春の日をむかへども 春ゆく春の日をむかへども 春ゆく花の花の香の
知識 つれづれ草に、その花を咲かせる。 は、花を咲かせる。 は、花を咲かせる。 は、花を咲かせる。 は、花を咲かせる。 は、花を咲かせる。 は、花を咲かせる。 は、花を咲かせる。 は、花を咲かせる。 は、花を咲かせる。 は、花を咲かせる。 は、花を咲かせる
つれづれ草に はまります
つれづれ草に水は浅いほどよいと書いてある。
青空 つれづれ草に水は浅いほどよいと書いてある。 わたくしはわたくしは、わたくしの旧居に、田楽師一家なる一人で、田楽師の家に遊びにゆきました。わたくしは、田楽師の家に遊びにゆきました。わたくしは、田楽師の家に遊びにゆきました。わたくしは、田楽師の家に遊びにゆきました。わたくしは、田楽師の家に遊びにゆきました。わたくしは、田楽師の家に遊びにゆきました。わたくしは、田楽師の家に遊びにゆきました。 わたくしは
知識 つれづれ草に水は浅いほどよいと書いてある。 つれづれ草は、その葉が茎を伸ばして、葉が茎を伸ばして、葉が茎を伸ばして、葉が茎を伸ばして、葉が茎を伸ばして、葉が茎を伸ばして、葉が茎を伸ばして、葉が茎を伸ばして、葉が茎を伸ばして、葉が茎を伸ばして、葉が茎を伸ばして、葉が茎
つれづれ草に水は浅いほどよいと書いてある。
つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の磧で暮した。
青空 つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の ⁇ で暮した。わたくしは子供のころは大概川ふちの流れている川ふちに水を引いたことがあった。 ある年の秋、私はある年の秋、水甕に ⁇ を洗うことにした。ある年の秋、私は水甕に ⁇ を洗うことにした。水甕は水甕の水を洗うことにした。水甕の水甕は洗うことにした。 水甕は水甕の水甕
知識 つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の ⁇ で暮した。 ある日、わたくしはわたくしは、この川に水が流れ込むのを楽しみにしていた。水が流れ込むのは、水が流れ込むのが楽しみだった。水が流れ込むのは、水が流れ込むのが楽しみだった。水が流れ込むのは、水が流れ込むのが楽しみだった。水が流れ込むのは、水が流れ込むのは、水が流れ
つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の ⁇ で暮した。 わたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしはわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくしわたくし

50000 ステップの段階では

  • 制御コードごとの違いが大きくでている
  • 「青空」が最も長い文章を生成できている。
  • 「知識」も多少文章を生成できているが「青空」と異なり繰り返しが多い。
  • 終了コードを追加したので「訳」の制御コードは短い文しか返さない

150000 ステップの結果

つれづれ草に
青空 つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の ⁇ で暮した。河原の中にも流れとは別な清水が湧いていて、そこを掘り捌いて小さいながれをわたくしは毎日作って遊んだ。ながれは幅二尺くらい長さ三間くらいの、砂利をこまかに敷き込み二、三尺のいちじくの木は家で、小さいながら少しも刈り分けがつかない。わたくしは若い時分には水練の人として頭角を現わしていたが
知識 つれづれ草に、草の根を掘って、草の根を掘って、草の根を掘って、草の根を掘って、草の根を掘って、草の根を掘って、草の根を掘って、草の根を掘って、草の根を掘って、草の根を掘って、草の根を掘って、草の根を掘って、草の根を掘って、草の根を掘って、草の根を掘って、草の根を
つれづれ草に はまります
つれづれ草に水は浅いほどよいと書いてある。
青空 つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の ⁇ で暮した。河原の中にも流れとは別な清水が湧いていて、そこを掘り捌いて小さいながれをわたくしは毎日作って遊んだ。ながれは幅二尺くらい長さ三間くらいの、砂利をこまかに敷き込み二、三尺のいちじくの木は家で、小さいながら少しも刈り分けがつかない。わたくしは若い時分には水練の人として頭角を現わしていたが
知識 つれづれ草に水は浅いほどよいと書いてある。 草は、草の茎を刈り取る。 草は、草の茎を刈り取る。 草は、草の茎を刈り取る。 草は、草の茎を刈り取る。 草は、草の茎を刈り取る。 草は、草の茎を刈り取る。 草は、草の茎を刈り取る。 草は、草の茎を刈り取る
つれづれ草に水は浅いほどよいと書いてある。
つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の磧で暮した。
青空 つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の ⁇ で暮した。河原の中にも流れとは別な清水が湧いていて、そこを掘り捌いて小さいながれをわたくしは毎日作って遊んだ。ながれは幅二尺くらい長さ三間くらいの、砂利をこまかに敷き込み二、三尺のいちじくの木は家で、小さいながら少しも刈り分けがつかない。わたくしは若い時分には水練の人として頭角を現わしていたが
知識 つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の ⁇ で暮した。 草は、草を刈り、草を刈り、草を刈り、草を刈り、草を刈り、草を刈り、草を刈り、草を刈り、草を刈り、草を刈り、草を刈り、草を刈り、草を刈り、草を刈り、草を刈り、草刈りして草刈りする。草刈りは
つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の ⁇ で暮した。 わたくしはわたくしはわたくしはわたくしはわたくしはわたくしは、わたくしの『草』を あの草を あの草を あの草に 挿んで わたしの草を 挿んで それを 挿んで それを 挿んで 挿んで それを 挿んで 挿んで 挿んで 挿んで 挿んで 挿んで 挿んで 挿

150000 ステップでは

  • 「青空」は元文章をある程度再現できているが、終盤が元文章と大きく異なっている。
  • 「知識」は多少関連のありそうなことを述べているが文章にはなっていない
  • 「訳」は短い場合は適当な単文をつくっているが、入力が長くなると文章として成立しなくなる。

250000ステップ

つれづれ草に
青空 つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の ⁇ で暮した。河原の中にも流れとは別な清水が湧いていて、そこを掘り捌いて小さいながれをわたくしは毎日作って遊んだものである。ながれは幅二尺くらい長さ三間くらいの、砂利をこまかに敷き込み二た側へ石垣のまねをつくり、それを流れへ引くのであったが、上手の清水はゆたかに湧きながれて、朝日は浅いながれの小砂利の上を
知識 つれづれ草に、はるは、日本の草地である。 草地は、草地は、草地は、草地は、草地は、草地は、草地は、草地は、草地は、草地は、草地は、草地は、草地は、草地は、草地は、草地は、草地は、草地は、草地は、草地は、草地は
つれづれ草に はやくも はやくも はやくも はやくも はやくも はやくも はやくも はやくも はやくも はやくも はやくも はやくも はやくも はやくも はやくも はやくも はやくも はやくも はやくも はやくも はやくも はやくも はやくも は
つれづれ草に水は浅いほどよいと書いてある。
青空 つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の ⁇ で暮した。河原の中にも流れとは別な清水が湧いていて、そこを掘り捌いて小さいながれをわたくしは毎日作って遊んだものである。ながれは幅二尺くらい長さ三間くらいの、砂利をこまかに敷き込み二た側へ石垣のまねをつくり、それを流れへ引くのであったが、上手の清水はゆたかに湧きながれて、朝日は浅いながれの小砂利の上を
知識 つれづれ草に水は浅いほどよいと書いてある。 草は、草の表面には、葉が生え、茎の先端に葉が生え、その先端に葉が生え、その先端に葉が生え、その先端に葉が生え、その先端に葉が生え、その先端に葉が生え、その先端に葉が生え、その先端に葉が生え、その先端に葉が生え、その先端に葉が生え、その先端に
つれづれ草に水は浅いほどよいと書いてある。
つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の磧で暮した。
青空 つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の ⁇ で暮した。河原の中にも流れとは別な清水が湧いていて、そこを掘り捌いて小さいながれをわたくしは毎日作って遊んだものである。ながれは幅二尺くらい長さ三間くらいの、砂利をこまかに敷き込み二た側へ石垣のまねをつくり、それを流れへ引くのであったが、上手の清水はゆたかに湧きながれて、朝日は浅いながれの小砂利の上を
知識 つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の ⁇ で暮した。 ある晩、草は枯れて枯れてしまった。草は枯れてしまった。草は枯れてしまった。草は枯れてしまった。草は枯れてしまった。 草は枯れてしまった。 草は枯れてしまった。 草は枯れてしまった。 草は枯れてしまった。 草は枯れてしまった。 草は枯れてしまった。 草は枯れてしまった。
つれづれ草に水は浅いほどよいと書いてある。わたくしは子供のころは大概うしろの川の ⁇ で暮した。 もうすぐ もう もう もう もう もう もう もう もう もう もう もう もう もう もう もう もう もう もう もう もう よければ もう もう もう よければ もう よければ もう よければ もう もう よければ もう
  • 「青空」は150000ステップよりも再現度が上がっている
  • それ以外の制御コードは150000ステップとそれほど変わっていないように見える

次にWikipedia(口入)を序文とする

口入\n\n口入(くにゅう)は、口出しや干渉、仲介、斡旋などの行為を意味しており、日本においては古代から近代まで長く使われた言葉であるが、中世には特殊な法律用語として用いられた。

口入
青空 口入無沙汰に花を盛り同行 君は、子供馬鹿でいや てれつきそうな 松にブンと鳴らし 鼻をひかれると近づくと道が 崖にのぞき
知識 口入(こうにゅう)は、日本の地名、人名。
口入を 見つけなくていい
口入 口入(くにゅう)は、口出しや干渉
青空 口入 口入(くにゅう)は、口出しや干渉を、お呼びになります。 諏訪 はて、相違ないが、この中の男と娘が恋仲だ。たといね、よし、よし、これはわたくしでございます。さあ、貴方、存じているようだがわしの顔は、かつてここを立ち退いて、この上に様と迫って、あぶない、落ちないようにしようとなさいました、そうとはお思いにならなかったのですか。 田川 はあ、調べてごらんの誤解
知識 口入 口入(くにゅう)は、口出しや干渉をしない、または、口入(こうにゅう)とも言う。 口入は、口入(こうにゅう)とも言う。口入は、口入(こうにゅう)とも言う。口入は、口入(こうにゅう)とも言う。口入は、口入(こうにゅう)とも言う。口入は、口入(こうにゅう)とも言う。口入は
口入 口入(くにゅう)は、口出しや干渉を する
口入 口入(くにゅう)は、口出しや干渉、仲介、斡旋などの行為を意味しており
青空 口入 口入(くにゅう)は、口出しや干渉、仲介、斡旋などの行為を意味しておりましたが、加賀藩では加賀藩のものとして、これが内閣にならうという時局にかなっているのであります。 俗に信越線の沓掛駅が相生橋に置かれるから、あるものに相違ありません。 越前守は、この出来事を、大切な約束事と、解決させたい考えでしたけれども、藩主が、独断で独断で独断で解決させなかった事実
知識 口入 口入(くにゅう)は、口出しや干渉、仲介、斡旋などの行為を意味しており、口入は、口入を「口入」と「口入」と「口入」と「口入」と「口入」と「口入」と「口入」と「口入」と「口入」と「口入」と「口入」と「口入」と「口入」と「口
口入 口入(くにゅう)は、口出しや干渉、仲介、斡旋などの行為を意味しており
  • 元がWikipediaの文章の割には「青空」が最も意味のありそうな文章を出力している

元文章の序文 (JESC)

警察は酷い事故だったって 運転手は致命傷だったって

警察は
青空 警察は毎日丘の角で、大岩呼夫と親切そうな笑顔をしておりました。彼は例の大きな岩見は勿論ただちに、警視庁の所轄署に通達して、毎日通達しまして、警察署の署員達を対等に捜索させました。が、次第に捜索を再開しまして、彼は署員に、秘蔵の話をして聞かせる以上に、恐るべき恐るべき事は解決しないと感じました。 見れば、この船の中で、船外に新聞記者が横
知識 警察は、警察の捜査員が、警察の捜査員が、警察の捜査員が、警察の捜査員が、警察の捜査員が、警察の捜査員が、警察の捜査員が、警察の捜査員が、警察の捜査員が、警察の捜査員が、警察の捜査員が、警察の捜査員が、警察の捜査員が、警察の捜査員が、警察の捜査員が、警察の捜査員が
警察は 警察の捜査官に 連絡をしなくて
警察は酷い
青空 警察は酷い顔をして、 冬のディカセに熱く臥て、 電柱が白く光って見えた。 街々は、歓呼の声がやんだ。 血は血にしみ、ガスは走って、
知識 警察は酷い犯罪行為の多さから、警察の捜査を厳しく規制する方針を採っていた。警察は、警察の捜査を厳しく規制する方針を採っていた。警察は、警察の捜査を厳しく規制する方針を採っていた。警察は、警察の捜査を厳しく規制する方針を採っていた。警察は、警察の捜査を厳しく規制する方針を採っていた。警察は、警察の捜査を厳しく規制する方針を採っていた。
警察は酷い
警察は酷い事故だって
青空 警察は酷い事故だって何者だ。 職員は全員、非常に少なく、工作機械で、十二分かかって仕事をしていると約束したり、爆発したりすると、まるっきり鍵を片づけられる。職員の財布に自分の名が記れる。携帯は鉄で充填され、運搬に使用する。運搬に使用する。運搬には、十個の人間から十個の精神力をたのまれているジイド機関キチン機関が使用される。救助活動で七個の精神力を、その
知識 警察は酷い事故だって、警察の責任を問われる。 警察は、警察の責任を問われる。 警察は、警察の責任を問われる。 警察は、警察の責任を問われる。 警察は、警察の責任を問われる。 警察は、警察の責任を問われる。 警察は、警察の責任を問われる。 警察は、責任を問われる。 警察は、責任を問われる。
警察は酷い事故だって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どうやって どう
  • 「青空」制御コードの文章は意味は分からないが日本語のような文章を生成している。
  • 「知識」の制御コードはまだ長文生成ができていないのでunder-fittingな可能性が高い
  • 「訳」は学習データ的に長文を返すことはできない

オリジナル文章作成

前回同様にオリジナル文章を作成してみる。

物理学には愛がある。
青空 物理学には愛がある。本当に愛という言葉は、愛が養分な明示を求めるということを意味するのであろう。一体この熟したい現象は、われわれの日常の用象だということからも解って来るのである。勿論日常の科学生活を事においてにおいてなしに、現実の事実からだけ与えられ得るのであり、現実の事実に即して解放されたのであった。 物理学は、物理学の特別な特別な特別な特別な特別な本質を持っている。科学は第一に物理学の特別な特別な特別な特別な場合として与えられるのである。ある意味において
知識 物理学には愛がある。 物理学の分野において、物理学は、物理学の分野における最も基本的な概念である。 物理学は、物理学の分野における最も基本的な概念であり、物理学の分野における最も基本的な概念である。 物理学は、物理学の分野における最も基本的な概念である。 物理学は、物理学の分野における最も基本的な概念であり、物理学の分野における最も基本的な概念である。 物理学は、物理学の分野における最も基本的な概念である。 物理学は、物理学
物理学には愛がある。

制御「青空」の文章は「物理学」と「愛」というキーワードを含んだ、ある程度自然な文章が生成できて
いるように感じる。(ところどころ日本語がおかしいが。)
「知識」は愛について全く述べていないのでこの序文に対しての文章を生成しているわけではない。

過去というものは未来の積み重ねである
青空 過去というものは未来の積み重ねである。今まさに昨日の進みに鳴るものがあった。これは人格の自由というのが、かかる人格の自由の、言説の無意味な語に外ならぬ。吾れには宇宙の精神、現一の物質的の精神として、万物一様生きている心の秘密を切りひらいて人類の霊性をくみたてようではないか。これが真に、正しく我々の前にたつのだ。これはつまり、人が言うほどのものではない。今までに知っていたよりも、ずっと、だれにもわかわかっていた人間について
知識 過去というものは未来の積み重ねである。未来の積み重ねは未来の積み重ねであり、未来の積み重ねは未来の積み重ねである。未来の積み重ねは未来の積み重ねであり、未来の積み重ねは未来の積み重ねである。未来の積み重ねは未来の積み重ねであり、未来の積み重ねは未来の積み重ねである。未来の積み重ねは未来の積み重ねである。未来の積み重ねは未来の積み重ねである。未来の積み重ねは未来の積み重ねである。未来の積み重ねは未来の積み重ねである。未来
過去というものは未来の積み重ねである

制御「青空」の文章は最初の一文は序文に関係していそうなものだが、 それ以降は関係のない文章を生成しているように見える。

既存の概念を覆す帽子
青空 既存の概念を覆す帽子のものだ。 すべてこれらの本は、歴史的および現在の政治的な概念を出来るだけ除去し、その目的とするすべての本のことを、我々は、この二つの側面を通じてその中核を構成する最も有望な書物の一つであると確信している*。モンテーニュは、十八世紀の中葉においてフランスの「ジャン・クリストフ」に、最もその概念の図式の意味を根底において、巧みに説き起こしている。その説は、第一巻第十一章の中でハンガリア・
知識 既存の概念を覆す帽子は、そのデザインが、そのデザインを「デザイン」と「デザイン」の2つに分けたものである。 デザインは、デザインの「デザイン」と「デザイン」の2つに分けた。デザインは、デザインの「デザイン」と「デザイン」の2つに分けた。デザインは、デザインの「デザイン」と「デザイン」の2つに分けた。デザインは、デザインの「デザイン」と「
既存の概念を覆す帽子を 作らないと

「青空」の文章は"既存の概念を覆す"に関連する文章生成しているようだが、
"帽子"という部分は無視してしまっている。
「知識」の制御コードは序文にはない"デザイン"という単語を連呼している。 これは"帽子"という単語に対応する"デザイン"という単語を選んで文章を 生成できていると解釈すると全くの無関係な文章ではないと思う。 「訳」については正しく短い会話文を生成できているので問題ないと思う。

現状のまとめと今後

現状各制御コードは

  • 制御コード「青空」は前処理によって学習の進み方が速くなり、自然な日本語を生成できている
  • 制御コード「知識」はまだ学習が不十分であると思われる
  • 制御コード「訳」は単文を出力するという部分は正しく学習できている

「青空」の文章は確かに自然な文章なのだが、それが元の「青空文庫」データをそのままコピーした
ものなのかそれともいくつかの文章が混ざってものかは今後確かめたい。
「知識」の文章はまだ学習不足で不自然な日本語が多い印象があるので今後改善されることを期待する。
「訳」については学習データの時点で長文の生成は不可能と思われるので現状こんなものかと思うが、
他のデータセットと混ざることにより長文でもある程度自然な返答ができればなお良いと思う。

参考文献