はじめに これまで学習してきた日本語CTRLの最終モデルをまとめる。 学習曲線 学習は500Kステップ行った。 train loss の学習曲線(span=5000のewmaでスムージング済み) 学習曲線を見る限りはほぼ収束しているように見える。 推論結果 いくつか推論して見た結…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。