MIRU2020参加報告(8月4日分)

品川です。MIRU2020の参加報告の続きです。8月4日分です。

藤吉研のAttention Branch Networkへの愛がすごい

Attention Branch Network (ABN)は、Class Attention Map (CAM)のような画像認識の予測の注視領域の可視化を訓練時に自動で学習しつつ、予測性能向上にも寄与する手法です。 この前身となる技術であるCAMでは、画像認識モデルの最終層の部分を特徴マップをGlobal Average Poolingして重みづけしてLogistic regressionのようにして学習を行います。 つまり、この学習された重みの大きさから、どの特徴マップが予測に寄与しているかを可視化することができます。 ただし、このCAMはGlobal Average Poolingを用いていることで、予測性能を低下を招いてしまうという問題がありました。

そこで、ABNでは、ネットワークを途中で2つに分岐させます。予測のための分岐(Perception branch)と注視領域の可視化のための分岐(Attention branch)で役割分担をすることで、性能低下を抑えながら可視化を行うことができるようになりました。具体的には、注視領域をマスクとして出力し、分岐部分の特徴量に重畳する形でフィードバックし、残差接続によって特徴量を更新します。これによって、予測に寄与する部分の特徴量が強化されるように学習が進むようです。結果として、ABNを使わない普通の認識モデルよりも性能が上がるという美味しさがあります。

MIRU2018で初めて見た時はただ感心してただけだったのですが、これを考案した藤吉研では猛プッシュが続いています。 シンプルかつ汎用的かつ強力な手法が1つ出てくると、研究室全体がそれに注力して後続研究を続々と生んでいく傾向ってありそうだなと思います。深化も横展開もしやすいし、何よりノウハウが継承されるのがデカいですね。皆使えると深い議論もしやすいのだと思います。

NAIST中村研でもSpeech Chainが出てから音声班の後輩氏らはSpeech Chain childrenが多いなあという感じです。動くコードがあるし、ノウハウがあると応用しやすいんですよね。私もそういうの出せるようになりたいですね・・・

今回もいくつかABN childrenを見かけましたが、個人的に面白かったのは以下の研究でした。

OS1-3A-3 丸山祐矢, 平川翼, 山下隆義, 藤吉弘亘 (中部大) Deep Q-Networkによるロボットの自律移動におけるAttention branchによる判断根拠の獲得

こちらは、入力画像と指定されたゴールの位置情報を入力として、ロボットがゴールに向けて移動していくというタスクの研究です。強化学習手法の一つであるDQNによってロボットの行動を学習したあと、Attention branchを接続して、DQNの予測した次の行動を教師としてAttention branchを学習することで可視化を行います。後付けで元のモデルの精度を落とさずに可視化ができるのが面白いなと思いました。他のタスクにも応用できそうですね。 ただ、ABNみたいにフィードバックをつくらなかったのはなぜなのかちょっと気になる所です。強化学習でABNにした場合は学習が安定しないとかですかね? 仮に学習した後にABNみたいに結合させるとかはうまくいかないのでしょうか?残差接続してるので、catastrophic forgettingは比較的起きにくいような気もします。個人的にはまだポテンシャルを感じました。

YouTube風のサムネイル画像が人気

インタラクティブセッションで、Slack上で好評だったのがYouTube風のサムネイルの発表でした。
NAIST向川研の学生さんの発表が特に好評で、確か賞もとってたかと思います。
これからはサムネも頑張らないといけないですね・・・

その他、見にいった発表

OS2-1A-1 背景学習による対象領域抽出

中村凌, 植田祥明, 藤木淳, 田中勝 (福岡大)
午前中寝坊してちょっとしか見れなかったですが、異常検知的な方法で前景情報となる物体の領域を抽出する手法です。 物体ラベル(犬、猫など)のついた1物体画像と背景(BG)ラベルがついた大量の背景のみ画像を用意しておいて、小領域のパッチからラベルを予測するCNNを学習させます。 そうすると、背景画像が多数であることで、1物体画像の予測を行った時に、背景情報に属するパッチが前景情報(物体)に属するパッチよりも相対的に強く背景(BG)と予測されるようになります。 これによって、画像中の前景情報をあぶり出す、という研究です。非常に素直な方法で簡単に実装できそうという点がいいなと思いました。 背景情報にバイアスされたくないというタスクもあるので、そういう時に手軽にできる前処理として使いたいなあという気持ちです。

OS2-1A-4 コンテクストを考慮したChannel-wise AttentionによるSemantic Segmentationの改善

長内淳樹, 森巧磨, 山崎雅起, 谷口恭弘 (本田技術研究所)
第二著者が研究室の後輩の子だったので聴きに行ってみました。手法としては、特徴マップにchannelごとの重みづけを行うことでSemantic segmentationの性能が向上するという内容です。
書いてて気づきましたが、これ残差接続の無いABNにだいぶ似てますね。2つに分岐している点、フィードバックがある点、attention branchに相当する方の分岐でも予測を行っている点が似ています。異なる点は、領域ではなくchannelレベルでのフィードバックという点でしょうか。同じ特徴量を基にしてattentionを計算しているので、気持ちとしてはself-attentionとも近い気がします。 この手法によって、各セグメンテーションラベルの予測を担当するチャネルが綺麗に分かれるようですね。最新の手法との比較とかは無かったような気がするのですが、比較するとどうなるのか気になります。

OS2-2B-5 画像生成ネットワークの逆伝播に基づく繰り返し処理による物体の6D姿勢推定

荒木諒介, 大西剛史 (中部大), 平野正徳 (CKD), 平川翼, 山下隆義, 藤吉弘亘 (中部大)
透明な袋など、直接的に姿勢推定するようなものが難しい物体に対して、画像生成モデルを利用して段階的に物体の姿勢推定を行う手法です。 画像生成モデルは、姿勢のパラメータから画像を生成するモデルになっており、パラメータから生成された画像と目標画像との損失を計算して勾配を逆伝搬し、パラメータを更新するという方法です。
最初は解像度を低く、徐々に大きくするなどの工夫もあって面白かったです。

IS2-2-21 キャプショニングを用いた 画像中の重要領域判別手法の検討

鈴木拓, 佐藤大亮, 宮崎智, 菅谷至寛, 大町真一郎 (東北大)
東北大大町研の研究です。大町研はバリバリ画像というイメージだったのですが、image-captioningということで物珍しかったので聴講しました。 画像の重要領域の情報をなるべく落とさないように符号化するROI符号化を行うための方法として、captionの情報を使うという研究でした。大町研っぽい~という気持ちになりニッコリしました。 今後の発展性として、インタラクティブな方向性にも拡張できそうで個人的に面白かったです。

OS2-3A-1 知識転移グラフによるアンサンブル学習

岡本直樹, 南蒼馬, 平川翼, 山下隆義, 藤吉弘亘 (中部大)
1つのネットワークでなく、複数のネットワークがお互いに知識を教え合う知識転移を行いながらアンサンブル学習を行う手法です。 前身となる技術としては、学習済みの教師モデルの予測分布を教師として生徒モデルを学習する(知識を転移する)Knowledge Distillation (KD)と、 複数の未学習モデルがお互いに教え合うように学習する Deep Mutual Learning (DML)があります。 本研究は、各モデルの対応するattention mapの重なりを明示的に離すように学習を行い、各モデルが概念の予測に特化するように学習させる手法になっています。 この技術の前提として、アンサンブルによる精度向上と、予測分布のKL divergenceの大きさが相関関係にあることも予備実験として調べており、勉強になりました。

OS2-3A-3 ドメイン汎化モデルにおける分布外検知

広橋佑紀, 岡本大和, 武良盛太郎 (オムロン), 橋本敦史, 米谷竜, 牛久祥孝 (OSX)
分布外検知 (Out of Distribution Detection)の研究です。テスト時の入力が訓練時の分布と異なり過ぎていると対応できない問題が起きるので、これを自動的に検出したいというのがモチベーションです。 ドメイン汎化 (Domain Generalization: DG)モデル [8], [10]というのは、未知のテスト分布が訓練時の分布とあらかじめ離れている可能性を考慮しながら、このドメインのシフトに頑健に学習する方法らしいです。 この名前は初めて聞いたのですが、基本的には敵対的学習で、ドメインの予測が困難になるようにエンコーダを学習させる学習手法を指しているようです。

  • [8] Li, D., Yang, Y., Song, Y.-Z. and Hospedales, T.: Learning to Generalize: Meta-Learning for Domain Generalization, AAAI (2018).
  • [10] Liu, Y., Wang, Z., Jin, H. and Wassell, I.: Multi-task adversarial network for disentangled feature learning, CVPR (2018).

本研究ではドメイン汎化モデルによる予測がうまくいくかどうかを、ネットワークへのRing損失[18]という形で実現します。 Ring損失は特徴量を超球上に射影するための損失です。Ring損失を用いた分類タスクでは、特徴量を超球上へ射影し、超球上の位置によって二値分類や多値分類を行います。 (二値分類では二値に対応する2つの超球を用意し、ノルムの長さから分類を行うようです) 気持ちとしては、特徴量ベクトルにおけるノルムまたは角度を制約することで高次元空間でのカテゴリ予測を頑健に行う手法のようです(たぶん)

  • [18] Zheng, Y., Pal, D. K. and Savvides, M.: Ring Loss: Convex Feature Normalization for Face Recognition, CVPR (2018).

本研究が着目した点は、このリング損失に基づいたカテゴリ予測を行う時に、分布外の入力が入った場合は予測されるノルムが超球上から離れていくという点です。 実験では提案手法が分布外サンプルを検出できたかどうかをF値で測っており、十分な向上があったように思えました。
この研究は自分のタスクにも応用できそうで、興味深かったです。

IS2-3-18 クラス不均衡なソースデータを用いた敵対的ドメイン適応

金子智一, 寺尾真 (NEC)
異常検知のようなクラス不均衡のタスクでドメイン適応を行うという主旨の研究でした。 ソースとターゲットの両ドメインでクラス不均衡があるのが特徴です。 本研究では、2クラス分類のクラス不均衡を解決する方法として使われるAUC 最適化学習[7, 8]を導入することで問題の解決を試みていました。 仮定として、両ドメインのクラスの不均衡具合は同じ程度という仮定があるそうですが、プライベートな実験で確認した限りでは提案手法は両ドメインの不均衡具合が多少異なっていても頑健に動作するそうです。

  • [7] Sakai, T., Niu, G. and Sugiyama, M.: Semi-Supervised AUC Optimization Based on Positive-Unlabeled Learning, Machine Learning, Vol. 107, No. 4, pp. 767–794 (4月 1, 2018).
  • [8] Ying, Y., Wen, L. and Lyu, S.: Stochastic Online AUC Maximization, Advances in Neural Information Processing Systems 29 (Lee, D. D., Sugiyama, M., Luxburg, U. V., Guyon, I. and Garnett, R., eds.), Curran Associates, Inc., pp. 451–459 (2016).

再び首が逝った

久々に首が痛くて寝てたら午前中のオーラルを聞き逃してしまいました・・・
ちなみに原因は姿勢の悪さで、しばらく博論に追われて懸垂をさぼってたツケがきたらしいですね。
ちなみに懸垂したら改善しました。懸垂は全てを解決しますね。
それはそれとして良い椅子を買うことを決意しました。博論の最終審査も無事終わったので、学位取得前祝いとして購入を検討したいですね。。。

紹介していただいたところ

中古の通販でもまあまあイケるらしいですね。とりあえず色々試しに座ってみたいので、まずはショールームに行こうと思います。