2020-12-01から1ヶ月間の記事一覧

OpenAIのPPO言語生成論文を読む②

この記事は強化学習苦手の会 Advent Calendar 2020の25日目の記事です。 こんにちは、品川です。いよいよこのAdvent Calendarも最終日ですね。 紹介する論文は、引き続きOpenAIの"Fine-Tuning Language Models from Human Preferences (ArXiv, 2019)"です。 …

OpenAIのPPO言語生成論文を読む①

この記事は強化学習苦手の会 Advent Calendar 2020の24日目の記事です。 2020.12.28 追記 解釈が致命的にミスってました・・・"To keep $\pi$ from moving too far from $\rho$"なので「両分布が離れすぎないように」です。 (誤)学習する方策$\pi$が、初期…

言語生成の強化学習をやっていく 実験編 REINFORCE編

この記事は強化学習苦手の会 Advent Calendar 2020の16日目の記事です。 はじめに REINFORCEへのコードの改変 実験設定 学習結果 BLEU(単語n-gramの一致率、高いほど良い) CIDEr (CIDEr-D) (TF-IDFも考慮した単語n-gramの一致率、高いほど良い) SPICE(…

言語生成の強化学習をやっていく 実験編 強化学習なしとSelf-Criticの比較

この記事は強化学習苦手の会 Advent Calendar 2020の14日目の記事です。 追記 2020.12.15:loss計算の式を以下のように変更しました。 (修正前):$loss = -\underset{\hat{Y} \sim \pi_{\theta}}{\mathbb{E}}\left[\left( r(\hat{Y}) - r_b \right) \right…

言語生成の強化学習をやっていく(手法紹介 Actor-Critic編②)

この記事は強化学習苦手の会 Advent Calendar 2020の10日目の記事です。 言語生成の強化学習 参ノ型 「Actor-Critic with Q-learning」 [164] Decoding with Value Networks for Neural Machine Translation (NIPS2017) [167] Learning to Decode for Future…

言語生成の強化学習をやっていく(手法紹介 Actor-Critic編①)

この記事は強化学習苦手の会 Advent Calendar 2020の5日目の記事です。サクサク行きましょう。 追記 2020.12.16 Actor-Criticの式が思った通りに伝わらなさそうなので、以下のように書き直しました。 (修正前)$\nabla_{\theta} \mathcal{L}_{\theta}= - \f…

言語生成の強化学習をやっていく(手法紹介 REINFORCE編)

この記事は強化学習苦手の会 Advent Calendar 2020の3日目の記事です。 2020.12.04 追記 はじめに サーベイ論文の概要 言語生成モデルのおさらい 言語生成における強化学習 (前提知識) エピソード 報酬 学習における立ち位置 言語生成の強化学習 壱ノ型 「…

強化学習苦手の会(もくもく会)をはじめて2ヶ月近く経った結果

この記事は強化学習苦手の会 Advent Calendar 2020の1日目の記事です。 こんにちは、品川です。はじめましての方ははじめまして。 最近、強化学習苦手の会というのを始めました。強化学習苦手の会もはじめてから早1ヶ月以上経ったので、一つ発表の機会がある…