OpenAIのPPO言語生成論文を読む②

この記事は強化学習苦手の会 Advent Calendar 2020の25日目の記事です。こんにちは、品川です。いよいよこのAdvent Calendarも最終日ですね。紹介する論文は、引き続きOpenAIの"Fine-Tuning Language Models from Human Preferences (ArXiv, 2019)"です。 …

2020-12-24

OpenAIのPPO言語生成論文を読む①

この記事は強化学習苦手の会 Advent Calendar 2020の24日目の記事です。 2020.12.28 追記解釈が致命的にミスってました・・・"To keep $\pi$ from moving too far from $\rho$"なので「両分布が離れすぎないように」です。（誤）学習する方策$\pi$が、初期…

2020-12-16

言語生成の強化学習をやっていく実験編 REINFORCE編

この記事は強化学習苦手の会 Advent Calendar 2020の16日目の記事です。はじめに REINFORCEへのコードの改変実験設定学習結果 BLEU（単語n-gramの一致率、高いほど良い） CIDEr (CIDEr-D) （TF-IDFも考慮した単語n-gramの一致率、高いほど良い） SPICE（…

2020-12-14

言語生成の強化学習をやっていく実験編強化学習なしとSelf-Criticの比較

この記事は強化学習苦手の会 Advent Calendar 2020の14日目の記事です。追記 2020.12.15：loss計算の式を以下のように変更しました。（修正前）：$loss = -\underset{\hat{Y} \sim \pi_{\theta}}{\mathbb{E}}\left[\left( r(\hat{Y}) - r_b \right) \right…

2020-12-10

言語生成の強化学習をやっていく（手法紹介 Actor-Critic編②）

この記事は強化学習苦手の会 Advent Calendar 2020の10日目の記事です。言語生成の強化学習参ノ型「Actor-Critic with Q-learning」 [164] Decoding with Value Networks for Neural Machine Translation (NIPS2017) [167] Learning to Decode for Future…

2020-12-05

言語生成の強化学習をやっていく（手法紹介 Actor-Critic編①）

この記事は強化学習苦手の会 Advent Calendar 2020の5日目の記事です。サクサク行きましょう。追記 2020.12.16 Actor-Criticの式が思った通りに伝わらなさそうなので、以下のように書き直しました。（修正前）$\nabla_{\theta} \mathcal{L}_{\theta}= - \f…