2020-01-01から1年間の記事一覧

OpenAIのPPO言語生成論文を読む②

この記事は強化学習苦手の会 Advent Calendar 2020の25日目の記事です。 こんにちは、品川です。いよいよこのAdvent Calendarも最終日ですね。 紹介する論文は、引き続きOpenAIの"Fine-Tuning Language Models from Human Preferences (ArXiv, 2019)"です。 …

OpenAIのPPO言語生成論文を読む①

この記事は強化学習苦手の会 Advent Calendar 2020の24日目の記事です。 2020.12.28 追記 解釈が致命的にミスってました・・・"To keep $\pi$ from moving too far from $\rho$"なので「両分布が離れすぎないように」です。 (誤)学習する方策$\pi$が、初期…

言語生成の強化学習をやっていく 実験編 REINFORCE編

この記事は強化学習苦手の会 Advent Calendar 2020の16日目の記事です。 はじめに REINFORCEへのコードの改変 実験設定 学習結果 BLEU(単語n-gramの一致率、高いほど良い) CIDEr (CIDEr-D) (TF-IDFも考慮した単語n-gramの一致率、高いほど良い) SPICE(…

言語生成の強化学習をやっていく 実験編 強化学習なしとSelf-Criticの比較

この記事は強化学習苦手の会 Advent Calendar 2020の14日目の記事です。 追記 2020.12.15:loss計算の式を以下のように変更しました。 (修正前):$loss = -\underset{\hat{Y} \sim \pi_{\theta}}{\mathbb{E}}\left[\left( r(\hat{Y}) - r_b \right) \right…

言語生成の強化学習をやっていく(手法紹介 Actor-Critic編②)

この記事は強化学習苦手の会 Advent Calendar 2020の10日目の記事です。 言語生成の強化学習 参ノ型 「Actor-Critic with Q-learning」 [164] Decoding with Value Networks for Neural Machine Translation (NIPS2017) [167] Learning to Decode for Future…

言語生成の強化学習をやっていく(手法紹介 Actor-Critic編①)

この記事は強化学習苦手の会 Advent Calendar 2020の5日目の記事です。サクサク行きましょう。 追記 2020.12.16 Actor-Criticの式が思った通りに伝わらなさそうなので、以下のように書き直しました。 (修正前)$\nabla_{\theta} \mathcal{L}_{\theta}= - \f…

言語生成の強化学習をやっていく(手法紹介 REINFORCE編)

この記事は強化学習苦手の会 Advent Calendar 2020の3日目の記事です。 2020.12.04 追記 はじめに サーベイ論文の概要 言語生成モデルのおさらい 言語生成における強化学習 (前提知識) エピソード 報酬 学習における立ち位置 言語生成の強化学習 壱ノ型 「…

強化学習苦手の会(もくもく会)をはじめて2ヶ月近く経った結果

この記事は強化学習苦手の会 Advent Calendar 2020の1日目の記事です。 こんにちは、品川です。はじめましての方ははじめまして。 最近、強化学習苦手の会というのを始めました。強化学習苦手の会もはじめてから早1ヶ月以上経ったので、一つ発表の機会がある…

【備忘録】PyTorchで黒橋研日本語BERT学習済みモデルを使ってみる

品川です。最近本格的にBERTを使い始めました。 京大黒橋研が公開している日本語学習済みBERTを試してみようとしてたのですが、Hugging Faceが若干仕様を変更していて少しだけハマったので、使い方を備忘録としてメモしておきます。 準備 学習済みモデルのダ…

MIRU2020参加報告(8月5日分)

品川です。引き続きMIRU2020の参加報告です。いよいよ最終日です。 自然言語による対話的画像編集システムについての研究を発表しました。 gatherというアプリがあるらしい その他見た発表 IS3-1-7 擬似陰影を用いたフレーム間追跡によるアニメ線画の自動着…

MIRU2020参加報告(8月4日分)

品川です。MIRU2020の参加報告の続きです。8月4日分です。 藤吉研のAttention Branch Networkへの愛がすごい YouTube風のサムネイル画像が人気 その他、見にいった発表 OS2-1A-1 背景学習による対象領域抽出 OS2-1A-4 コンテクストを考慮したChannel-wise At…

MIRU2020参加報告(8月3日分)

品川です。MIRU2020に参加しているのでいくつか気づいたことなど。 集中力、持たない インタラクティブセッションという名の超ロングオーラルが聞いていてつらい 発表について チュートリアルQA 鈴木大慈 (東京大学) 深層学習の数理:カーネル法,スパース推…

参加報告:MIRU2020若手プログラムに参加してきました。

MIRU2020の若手プログラムに参加したので忘れないうちに振り返ってまとめておきます。 参加時の私の状況 グループのプロジェクトについて プロジェクト始動時期について プロジェクトの進捗過程 若手プログラム発表当日の結果 考察と反省 発表の改善点 準備…

Defense

博士論文の公聴会(defense)が終わってようやく一息つけました。 ジャーナルを書いて投稿して博論書いてをタイトなスケジュールでこなさなければならなかったのでなかなかしんどかったです。 徐々に論文を読む余裕も気力も無くなってきて新しい論文がtwitter…