この記事は強化学習苦手の会 Advent Calendar 2020の25日目の記事です。 こんにちは、品川です。いよいよこのAdvent Calendarも最終日ですね。 紹介する論文は、引き続きOpenAIの"Fine-Tuning Language Models from Human Preferences (ArXiv, 2019)"です。 …
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。