初学者の段階から一歩前に進みたい方に勧めたい「深層強化学習入門」

こんにちは、品川です。本記事は強化学習 Advent Calendar 2021 17日目の記事です。 今回は以前献本いただいた「深層強化学習入門」についてご紹介したいと思います。 www.kyoritsu-pub.co.jp 噂の深層強化学習本を頂いたので拝読しました!概論として基礎知…

最近の言語生成の強化学習

こんにちは、品川です。本記事は強化学習 Advent Calendar 2021 6日目の記事です。 短いですが、最近の言語生成周りの強化学習関連の話題を取り上げたいと思います。 言語生成周りの強化学習のおさらい(2020年時点での私の理解) 最近の言語生成の強化学習①…

研究で詰まっている時におススメな本

こんにちは、品川です。 学生さんが自分の研究の進め方に悩んでいるのを最近(通年)よく見ます。例えば、何をしたら新規性が出るのかとか、指導教員との研究議論や進捗報告のコミュニケーションがうまくいかないといったことです。 こういうところで苦しん…

gpt2-japaneseのmediumモデルで架空のNAIST生をD進させてD進後の状況を独白してもらう

こんにちは、品川です。 最近仕事でGPT-2,3について調べてたのですが、日本語GPT-2を作っているプロジェクトのことを知りました。 github.com 見てみると学習済みモデル(small, medium)が公開済みで、fine-tuning用のコードなども揃っておりいたく感動しまし…

OpenAIのPPO言語生成論文を読む②

この記事は強化学習苦手の会 Advent Calendar 2020の25日目の記事です。 こんにちは、品川です。いよいよこのAdvent Calendarも最終日ですね。 紹介する論文は、引き続きOpenAIの"Fine-Tuning Language Models from Human Preferences (ArXiv, 2019)"です。 …

OpenAIのPPO言語生成論文を読む①

この記事は強化学習苦手の会 Advent Calendar 2020の24日目の記事です。 2020.12.28 追記 解釈が致命的にミスってました・・・"To keep $\pi$ from moving too far from $\rho$"なので「両分布が離れすぎないように」です。 (誤)学習する方策$\pi$が、初期…

言語生成の強化学習をやっていく 実験編 REINFORCE編

この記事は強化学習苦手の会 Advent Calendar 2020の16日目の記事です。 はじめに REINFORCEへのコードの改変 実験設定 学習結果 BLEU(単語n-gramの一致率、高いほど良い) CIDEr (CIDEr-D) (TF-IDFも考慮した単語n-gramの一致率、高いほど良い) SPICE(…

言語生成の強化学習をやっていく 実験編 強化学習なしとSelf-Criticの比較

この記事は強化学習苦手の会 Advent Calendar 2020の14日目の記事です。 追記 2020.12.15:loss計算の式を以下のように変更しました。 (修正前):$loss = -\underset{\hat{Y} \sim \pi_{\theta}}{\mathbb{E}}\left[\left( r(\hat{Y}) - r_b \right) \right…

言語生成の強化学習をやっていく(手法紹介 Actor-Critic編②)

この記事は強化学習苦手の会 Advent Calendar 2020の10日目の記事です。 言語生成の強化学習 参ノ型 「Actor-Critic with Q-learning」 [164] Decoding with Value Networks for Neural Machine Translation (NIPS2017) [167] Learning to Decode for Future…

言語生成の強化学習をやっていく(手法紹介 Actor-Critic編①)

この記事は強化学習苦手の会 Advent Calendar 2020の5日目の記事です。サクサク行きましょう。 追記 2020.12.16 Actor-Criticの式が思った通りに伝わらなさそうなので、以下のように書き直しました。 (修正前)$\nabla_{\theta} \mathcal{L}_{\theta}= - \f…

言語生成の強化学習をやっていく(手法紹介 REINFORCE編)

この記事は強化学習苦手の会 Advent Calendar 2020の3日目の記事です。 2020.12.04 追記 はじめに サーベイ論文の概要 言語生成モデルのおさらい 言語生成における強化学習 (前提知識) エピソード 報酬 学習における立ち位置 言語生成の強化学習 壱ノ型 「…

強化学習苦手の会(もくもく会)をはじめて2ヶ月近く経った結果

この記事は強化学習苦手の会 Advent Calendar 2020の1日目の記事です。 こんにちは、品川です。はじめましての方ははじめまして。 最近、強化学習苦手の会というのを始めました。強化学習苦手の会もはじめてから早1ヶ月以上経ったので、一つ発表の機会がある…

【備忘録】PyTorchで黒橋研日本語BERT学習済みモデルを使ってみる

品川です。最近本格的にBERTを使い始めました。 京大黒橋研が公開している日本語学習済みBERTを試してみようとしてたのですが、Hugging Faceが若干仕様を変更していて少しだけハマったので、使い方を備忘録としてメモしておきます。 準備 学習済みモデルのダ…

MIRU2020参加報告(8月5日分)

品川です。引き続きMIRU2020の参加報告です。いよいよ最終日です。 自然言語による対話的画像編集システムについての研究を発表しました。 gatherというアプリがあるらしい その他見た発表 IS3-1-7 擬似陰影を用いたフレーム間追跡によるアニメ線画の自動着…

MIRU2020参加報告(8月4日分)

品川です。MIRU2020の参加報告の続きです。8月4日分です。 藤吉研のAttention Branch Networkへの愛がすごい YouTube風のサムネイル画像が人気 その他、見にいった発表 OS2-1A-1 背景学習による対象領域抽出 OS2-1A-4 コンテクストを考慮したChannel-wise At…

MIRU2020参加報告(8月3日分)

品川です。MIRU2020に参加しているのでいくつか気づいたことなど。 集中力、持たない インタラクティブセッションという名の超ロングオーラルが聞いていてつらい 発表について チュートリアルQA 鈴木大慈 (東京大学) 深層学習の数理:カーネル法,スパース推…

参加報告:MIRU2020若手プログラムに参加してきました。

MIRU2020の若手プログラムに参加したので忘れないうちに振り返ってまとめておきます。 参加時の私の状況 グループのプロジェクトについて プロジェクト始動時期について プロジェクトの進捗過程 若手プログラム発表当日の結果 考察と反省 発表の改善点 準備…

Defense

博士論文の公聴会(defense)が終わってようやく一息つけました。 ジャーナルを書いて投稿して博論書いてをタイトなスケジュールでこなさなければならなかったのでなかなかしんどかったです。 徐々に論文を読む余裕も気力も無くなってきて新しい論文がtwitter…

関西合同音声ゼミ(2019.12.07)@立命館大学OIC

昨日関西合同音声ゼミに行ってきたので感想などを残しておく。 招待講演:コミック工学 まず、招待講演の立命館大山西先生のコミック工学研究の紹介が面白かった。技術が先にあって課題を探す技術指向、課題が先にあって課題を解決するために技術を開発する…

AIPセンターシンポジウム 兼 成果報告会(2017年度)を聴講してきた

AIPのシンポジウムに参加してきた。日本のヒーロー大集合という感じでとても心が躍った。一般に開かれたシンポジウムだったので公開しても大丈夫だろうと判断し、忘れないうちに思ったことなどメモしておく。 社会実装,倫理から基礎数理まで:革新知能研究…

jupyter notebookでscroll boxの高さを変える

jupyter notebookでscroll boxの高さを変える方法が検索しても出てこなかったのでメモ。 結論から言うと、以下のようにすればとりあえずできる。 from IPython.core.display import display, HTML display(HTML("<style>.scroll_box { height:30em !important; }</style>"))…

chainerのVGG16 pretrainモデルを早速使ってみた

最近めっきり記事を書いてないので、今後はメモくらいのつもりでもいいから小出しに書いていこうと思う。 chainerがv1.22.0でVGG16LayersとResNet50Layersをchainer.linksでサポートした。 Standard Link implementations — Chainer 1.22.0 documentation こ…

torchのnarrowメソッド

torchのnarrowメソッドがパッと見よくわからんので試してみた結果のメモ。 [Tensor] narrow(dim, index, size) ↑のサイトを参考にした。 narrowメソッドは何をするかというと、テンソル内部のある次元のある部分を切り取って返す関数である。ちなみに参照渡…

GTX1080 Ubuntu16.04 CUDA8 でNaNトラブル

備忘録メモ。 GTX1080をUbuntu16.04,CUDA8.0でセットアップしたが,今までTITANやTeslaで動いていたコードがNaNを吐き出すようになった。使っていたライブラリはchainer。 調べたところconvolutional layerのforward計算の出力がNaNになっていることが分かっ…

chainerで正方行列の対角成分を抜き出す

はじめに chainerでforwardの計算をするときに行列の対角成分をとりたい時があったが、これを計算するfunctionsが現行のchainer(v1.19.0)に確認できなかった。 ちなみにTensorflowだとdiag_part()がこれに相当する。 http://devdocs.io/tensorflow~python/ma…

この博士論文にはフィロソフィーが足りない

先輩方の博士論文の公聴会を聴講して、個人的に色々と刺さるものがあったので一応メモとして残しておく。 審査員の先生方から入ったツッコミをまとめると、主に以下の3点が刺さった。 [定義の説明] 研究の学術体系についての説明、概念・用語の定義の説明 […

python3でcv2をimportする方法

いままでopencvをpythonから呼び出すのにcv2を苦労してパス通してたが、やらなくて良い苦行であったことを知ったのでメモ。 python2については下記の記事を参照のこと。 qiita.com ただ、python3ではうまく入らなかったので、少し探してみた。 するとやっぱ…

WaveNetメモ

WaveNetのArXiv原稿を読んだのでメモ 概要 生の音声波形の生成を行うDNN 自己回帰型モデル 前の全ての波形サンプルから次のサンプルを予測するための予測分布を持つ(自己回帰型なので)(途中の波形の履歴から次のデータを生成できる、くらいの意味) 10,00…

PILで画像をロードできないときに確認すること

PILで画像をロードするとき、しばしば画像がロードできない現象が起きていたが、解決した。 stackoverflow.com stackoverflow.com 自分のケースも IOError: image file is truncated (0 bytes not processed) というエラーだったので、おそらくこれで間違い…

pythonのfilter関数

pythonのビルトイン関数にfilterというのがある。これはリストに対して条件に合致する要素をとってくることができる。よくネットで見るのは、 >>> lis=["apple","grape","banana","apple pie"] >>> filter(lambda x:x=="apple",lis) ['apple'] ところが、pyt…