こんにちは、品川です。実益を兼ねた趣味として、気になった話題をブログにまとめる趣味を始めようと思います。今回はAppleのFerret-UIです。
Ferret-UIの概要
Ferret-UIはMobile Web UIのためのMLLMです。記事にとりあげられていたのを見かけました。注目が集まっているようです。
原著はこちら。
要点:
- Ferret(Appleが以前に発表したMLLM)がベース
- 画像をサブ画像に分割して処理する
- 訓練データ:250K
- iPhoneやAndroidのUIスクリーンショットを利用
- Androidのは既存のRICO datasetのサブセットを利用
- Spotlightという先行研究 (Googleが出したMobile UI Understanding論文)のタスクを流用。会話的なQAペアに
- screen2words: 画面に映っている内容(どんなことをできるUIなのか)の要約
- widgetcaptions: 画面上のオブジェクトの機能の説明文を生成
- taperception: tappability(オブジェクトがタップ可能かどうか)の認識
- 自然言語からコマンドの位置をあてるタスク(Command Grounding)は本論文では別途Grounding tasksとして作っている模様
- 上記は全てGPT-3.5 Turboで作成
- Elementary Tasks: 画面上のUI要素についてのタスク群。
- Advanced Tasks:LLaVAを参考にVisual Instruction TuningのデータをGPT-4を使って作成
- iPhoneやAndroidのUIスクリーンショットを利用
- 計算資源:Ferret-UI-baseは8xA100で1日、Ferret-UI-anyresは3日で学習できる
- 評価方法:
- Public Benchmark from Spotlight
- Results on Elementary UI Tasks
- Results on Advanced Tasks
感想
- Appleの人が書く論文はしっかりしたものが多いので好き
- GPT-4でデータ作成は一般的な感じがあるが、GPT-4一辺倒でも偏りが出てしまう懸念はありそう?