MIRU2020参加報告(8月5日分)

品川です。引き続きMIRU2020の参加報告です。いよいよ最終日です。

自然言語による対話的画像編集システムについての研究を発表しました。

MIRU2020 IS3-2-11 自然言語の編集要求に対して効率的に確認を行う対話的画像編集システム
IS3-2-11 品川政太朗, 吉野幸一郎 (奈良先端大, 理研AIP), Seyed Hossein Alavi, Kallirroi Georgila, David Traum (Univ. of Southern California), Sakriani Sakti, 中村哲 (奈良先端大, 理研AIP)

発表はインタラクティブセッションという、ポスターセッションみたいな形式でした。今回のMIRUはオンライン開催ということもあり、発表形式は自由だったので、私は画面を半分スライド、半分デモの実演という感じで分けて発表することにしました。

発表に使ったスライドはこちらになります。

speakerdeck.com

内容としては、ざっくりまとめると以下のようになります。

  • 自然言語による画像編集は自然言語入力というのは入力の自由度がありすぎるので、画像編集モデルが苦手な表現が入ると意図しない編集が起きうる。なので対話的なプロセスを導入しよう
  • 対話的なプロセスとして複数のモデルからの生成結果で確認するという方法があるが、毎回確認されるのはユーザにとって手間
  • システム側が生成結果に自信がない時だけ確認できるような基準となる手法を提案し、アバター画像編集タスクにおいて確認回数を減らせることを確認した(詳細な結果はIEEE Accessに出した論文に譲る)
  • 確認の基準として、今回は画像変換でよく使われるマスク機構を持ったモデルを対象にしてマスクのエントロピーを確認の基準とした(マスク付きモデルは小さい領域の編集が得意だが、髪などの大きな領域の編集が苦手)

本手法のlimitationとしては、マスクありのモデルに対してだけ適用できる異常検知的な手法になっている点、また、確認にはマスクの閾値がハイパーパラメータとなっている点です。あと、システム側からの自然言語を使ってるわけではないという点です(本当は、対話というからにはそこら辺が機能として欲しかったのですが・・・)

本当は強化学習とかを使って柔軟に解決したいところなのですが、それには対話データが必要というのもあるので、今回はデータを集めるための足掛かり的な立ち位置といった感じになりました。確認閾値のハイパラは、対話的なフィードバックで制御することくらいはできたかなあと思っています。

他にも色々試していたことはあったのですが、博論を書かなければならないという時間制約もあり、不満はありながらもひとまず現状できてることで形にすることを優先しました。

発表当日には、Telegram-botを使ってデモを実装し、実演を交えながら説明していました。
このデモの利点はTelegramをインストールしていれば誰でも試せる点だったのですが、やっぱりTelegram皆使ってないのであまり試してもらえなかったのが反省点ですね・・・Telegram-botは対話デモを簡単につくれるので重宝しているのですが、他の方法を考えるか自分でデモのプラットフォームまで作る必要がある気がしています。

発表でやっといて良かったのは、事前にちゃんと宣伝をしておいてスライドなども事前にアップしていたことだと思います。予想以上にたくさんの方が見に来て下さり、途中からは説明やデモよりも、次々来る質問に順番に回答するというスタイルになりました。

「面白い研究だ」と言っていただいて嬉しい反面、それはおそらく「今後が面白い研究だ」という意味であり、現状その期待される面白さにはまだ遠く至っていない自覚があるので、気を引き締めて研究を進めていきたいなと思います。とりあえず、私ができたら面白いなと思っていることが他の方もできたら面白いと思っているというのが確認できたのが大きな収穫でした。これからは確信をもって頑張れます。議論して下さった皆様ありがとうございました。

gatherというアプリがあるらしい

私はデモの調整がまだ残ってたので参加できなかったのですが、MIRUの懇親会でgatherというアプリが使われてました。RPG風のワールド上で、自由に自キャラを動かして近くの人とコンタクトして喋れるというもののようです。後日試してみたらchromeだとカメラがうまく動かず、firefoxだと動きました。これは便利なので何か多人数のオンラインの集まりがあった時には使いたいなと思います。

gather.town

その他見た発表

IS3-1-7 擬似陰影を用いたフレーム間追跡によるアニメ線画の自動着色

陸儀, 中島克人 (東京電機大)
アニメ線画の自動着色の研究でした。線画の着色は大部分が白色で輪郭情報にしか輝度勾配が無いというスパースな情報なので、輝度勾配のあるグレーケール画像を着色するよりも難しさがあります。本研究ではこの点に着目し、線画に擬似的に陰影を与えることで自動着色の精度を上げようというコンセプトになっていてなるほどなと思いました。この擬似陰影は別の学習済みモデルによって与えているのですが、この陰影自体は着色時に悪影響を与えないかが気になりました。元々実験に使っているのが著作権の切れてるトムとジェリーの動画だったので、古いアニメゆえに着色後の画像に陰影の影響が出るのはむしろ味になって良いと思いますが、最近のアニメに適用すると結果がどう変わるのかとかが気になる所です。

IS3-1-8 SLGAN: Style-guided and Latent-guided GAN for Desirable Makeup Transfer and Removal

Daichi Horita, Kiyoharu Aizawa (UTokyo)
顔画像にメイクを施す&除去するという画像編集タスクを行うGANの研究でした。顔画像をリファレンス画像のメイクに近づける上で、元画像の本人らしさが変わらないようにするってのは結構難しそうだなあと思いました。Perceptual Makeup Lossというのがあるのは初めて知ったので勉強になりました。メイクタスクはGANの有望な使い道なので今後の研究の進展にも期待してます。

IS3-3-10 線画周辺マスクの画像補完によるイラストの見栄え向上

粟根啓太, 坪田亘記, 幾田光, 松井勇佑, 相澤清晴 (東大)
初心者が描いたいわゆる拙いイラストを、画像補完によってイイ感じにする研究でした。基本的には、うまいイラストで事前に画像補完タスクを学習しておきます。推論時には輪郭部分を中心にマスクを生成し、一方で全体的な構造や色合いを保つために、編集前の元イラストにガウシアンフィルタをかけてぼやかした画像を生成して画像補完に用います。ぼやかした画像にマスクを重畳した画像を入力として補完することで、全体的な構図を保持したまま、イラストが補正できるようです。アイデアが素直で良いアプローチだと思いました。手によるオクルージョンが入っていると失敗しがちという話があったので、ぼかし方を工夫したりできたらもっと面白いことができそうな気がしています。全身画像への拡張もできそうで面白かったです。

IS3-3-12 Handwriting Generation by Imitation Learning

Keisuke Kanda, Brian Kenji Iwana, Seiichi Uchida (Kyushu Univ.)
generative adversarial imitation learning (GAIL)を使って手書き文字を生成する研究でした。GAILはActor-Criticベースの強化学習にGAN的なアプローチを組合わせた深層生成モデルです。ある状態sにおいて、Actorは行動を生成し、Criticは価値を計算し、Discriminatorは行動の結果の報酬を出力します。GAILはいつか触りたいなと思っていたので勉強になりました。強化学習ベースの方法はインタラクティブ性という点でもRNNベースの方法より応用が利くかなと思っているのでここら辺の進展は面白いですね。学習は結構不安定で大変という話だったのでやっぱりなあという感じではありますが・・・

IS3-3-17 インスタンスマップから多様な画像への合成変換

大石涼火, 数藤恭子 (東邦大)
Semantic segmentation画像からの画像生成は最近の流行りですが、物体のセグメンテーションが隣接していると物体同士の境界部分で生成が難しくなるという問題があります。本研究では、セグメンテーションをインスタンスごとに区別するために、各インスタンスのセグメンテーションに、異なる乱数でインスタンスの中心からの位置に勾配を持たせています。これによって隣接部分がネットワークに分かりやすくなるという寸法で、なるほどとなりました。乱数はいわゆるスタイル情報に対応しているようで、同じ乱数を与えると同じ色合いで車の色が塗られたりといった特徴があるのが面白かったです。

全体を総括して

MIRU初のオンライン学会ということで、〆切がいきなり延びてたりデモセッションが中止になったり発表形式が自由でインタラクティブセッションが超ロングオーラルと化していたり、Slackに#学生 #自称若手 #真の若手チャンネルが立って覇を競ったりと最初から最後まで話題に事欠かない学会でした。運営の皆様は特に大変だったかと思います。無事まとめて下さりありがとうございました。

受賞には朝ランの会の方々が多かったです。やはり朝ランを実行できるほどのバイタリティが研究には重要ということでしょう。実は私も参加しようと思ってたのですが、見事に寝坊したので来年チャレンジしたいと思います。

個人的な都合でタスクの積まれ具合がルナティックモードでなければ懇親会とかももっと楽しめてたと思うので、来年は万全を排して参加したいと思います!(フラグ)