日本語CTRLを1から学習する - 2

はじめに

前回は学習環境として想定されるGCPの使い方を覚えた。
今回は学習対象となる日本語データセットについて調査する。

日本語のデータセット

日本語のデータセットは数多く公開されている。
参考:
http://nlp.ist.i.kyoto-u.ac.jp/index.php?NLP%E3%83%AA%E3%82%BD%E3%83%BC%E3%82%B9#g63a7f30
https://lionbridge.ai/ja/datasets/japanese-language-text-datasets/
https://iinop.com/nihongo-dataset-list/
http://web.wakayama-u.ac.jp/~kazama/lab/datasets.html

日本語Wikipedia

日本語Wikipediaは膨大なテキストデータを持ち、日々更新されているためぜひ利用したい。
Wikipediaからのデータ抽出は多く行われているため敷居はそれほど高くなさそうである。
参考:
http://kzkohashi.hatenablog.com/entry/2018/07/22/212913
https://leck-tech.com/machine-learning/wikipedia-sentencepiece

青空文庫

青空文庫では著作権の切れた文学作品を公開している。
データのダウンロードは以下のページが参考となる。
https://www.softantenna.com/wp/tips/howto-git-clone-aozora/
データも十分大きそうであるので学習に利用したいが、
小説などの文学作品は作者独自の表現の癖があるため1つの制御コードに
まとめて大丈夫かは要検討である。

JESC

JESCは日本語-英語間の翻訳データである。
280万語の文章を含む。
日本語部分だけ利用するか英語部分も利用するかは要検討。

その他

上記のようなオープンデータだけでは多様性が十分でない可能性がある。
多様なデータを学習に利用するためには自分自身でWEBから情報をスクレイピングする必要がある。
特に以下のような分野の文章が欲しい。

科学論文
法律関連
スポーツ関連
歴史

まとめと今後

今回はモデルの学習に利用できそうなデータセットを調査した。
日本語のデータセットも比較的たくさん公開されているが、
学術利用専用だったり申請が大変そうだったりするデータも多い。
自分が作りたいモデルを構築するためには自分でコーパスを作成したほうがよいと思う。
今後はデータの保存方法や前処理について調査していきたい。

ML Over the Horizon