この記事は強化学習苦手の会 Advent Calendar 2020の14日目の記事です。 追記 2020.12.15:loss計算の式を以下のように変更しました。 (修正前):$loss = -\underset{\hat{Y} \sim \pi_{\theta}}{\mathbb{E}}\left[\left( r(\hat{Y}) - r_b \right) \right…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。