AppleのFerret-UI

こんにちは、品川です。実益を兼ねた趣味として、気になった話題をブログにまとめる趣味を始めようと思います。今回はAppleのFerret-UIです。

Ferret-UIの概要

Ferret-UIはMobile Web UIのためのMLLMです。記事にとりあげられていたのを見かけました。注目が集まっているようです。

www.itmedia.co.jp

gigazine.net

原著はこちら。

arxiv.org

要点:

  • FerretAppleが以前に発表したMLLM)がベース
  • 画像をサブ画像に分割して処理する
  • 訓練データ:250K
    • iPhoneAndroidのUIスクリーンショットを利用
      • Androidのは既存のRICO datasetのサブセットを利用
    • Spotlightという先行研究 (Googleが出したMobile UI Understanding論文)のタスクを流用。会話的なQAペアに
      • screen2words: 画面に映っている内容(どんなことをできるUIなのか)の要約
      • widgetcaptions: 画面上のオブジェクトの機能の説明文を生成
      • taperception: tappability(オブジェクトがタップ可能かどうか)の認識
      • 自然言語からコマンドの位置をあてるタスク(Command Grounding)は本論文では別途Grounding tasksとして作っている模様
      • 上記は全てGPT-3.5 Turboで作成
      • Elementary Tasks: 画面上のUI要素についてのタスク群。
        • reffering系(ここではbboxで指定されたものを答えるタスク):OCR, icon recognition, widget classification
        • grouding系(指定されたものをbboxで出力するタスク):widget listing, find text, find icon, find widget
      • Advanced Tasks:LLaVAを参考にVisual Instruction TuningのデータをGPT-4を使って作成

Advanced Tasksの作成方法(論文Fig4より引用)

Advanced Tasksの作成方法(論文Fig4より引用)

  • 計算資源:Ferret-UI-baseは8xA100で1日、Ferret-UI-anyresは3日で学習できる
  • 評価方法:
    • Public Benchmark from Spotlight
    • Results on Elementary UI Tasks
    • Results on Advanced Tasks

感想

  • Appleの人が書く論文はしっかりしたものが多いので好き
  • GPT-4でデータ作成は一般的な感じがあるが、GPT-4一辺倒でも偏りが出てしまう懸念はありそう?

参考:Ferretについて

github.com

  • 思想的にはKosmos-2と同じで、物体の位置情報をbounding boxで吐き出せるように位置情報に特化した学習がされている
  • 学習済みモデルには7Bと13Bがある
  • Ferret-Benchというベンチマークも提案しているので要チェック