Seitaro Shinagawaの雑記帳

AppleのFerret-UI

気になった話題研究開発

こんにちは、品川です。実益を兼ねた趣味として、気になった話題をブログにまとめる趣味を始めようと思います。今回はAppleのFerret-UIです。

Ferret-UIの概要

Ferret-UIはMobile Web UIのためのMLLMです。記事にとりあげられていたのを見かけました。注目が集まっているようです。

www.itmedia.co.jp

原著はこちら。

要点：

Ferret（Appleが以前に発表したMLLM）がベース
画像をサブ画像に分割して処理する
訓練データ：250K
- iPhoneやAndroidのUIスクリーンショットを利用
  - Androidのは既存のRICO datasetのサブセットを利用
- Spotlightという先行研究（Googleが出したMobile UI Understanding論文）のタスクを流用。会話的なQAペアに
  - screen2words: 画面に映っている内容（どんなことをできるUIなのか）の要約
  - widgetcaptions: 画面上のオブジェクトの機能の説明文を生成
  - taperception: tappability（オブジェクトがタップ可能かどうか）の認識
  - 自然言語からコマンドの位置をあてるタスク（Command Grounding）は本論文では別途Grounding tasksとして作っている模様
  - 上記は全てGPT-3.5 Turboで作成
  - Elementary Tasks: 画面上のUI要素についてのタスク群。
    - reffering系（ここではbboxで指定されたものを答えるタスク）：OCR, icon recognition, widget classification
    - grouding系（指定されたものをbboxで出力するタスク）：widget listing, find text, find icon, find widget
  - Advanced Tasks：LLaVAを参考にVisual Instruction TuningのデータをGPT-4を使って作成

Advanced Tasksの作成方法（論文Fig4より引用）

Advanced Tasksの作成方法（論文Fig4より引用）

計算資源：Ferret-UI-baseは8xA100で１日、Ferret-UI-anyresは3日で学習できる
評価方法：
- Public Benchmark from Spotlight
- Results on Elementary UI Tasks
- Results on Advanced Tasks

感想

Appleの人が書く論文はしっかりしたものが多いので好き
GPT-4でデータ作成は一般的な感じがあるが、GPT-4一辺倒でも偏りが出てしまう懸念はありそう？

参考：Ferretについて

思想的にはKosmos-2と同じで、物体の位置情報をbounding boxで吐き出せるように位置情報に特化した学習がされている
学習済みモデルには7Bと13Bがある
Ferret-Benchというベンチマークも提案しているので要チェック