2020-08-04から1日間の記事一覧

PFRLを試してみる - アルゴリズム比較

はじめに 前回、 PFRLのSAC1でPendulum問題について強化学習を行った。 今回は別のアルゴリズムでも学習を行い比較を行う。 前回の訂正 前回 policyネットワークの出力をtorch.distributions.Normalにすると そのままではSACが動かず修正が必要だとしていた…