自然言語をモバイルUIアクションにマッピングするGoogleのオープンソースAI

Googleは、自然言語の命令のシーケンスをモバイルデバイスのUIでアクションに変換するためのAIモデルをオープンソース化した。このモデルはTransformerディープラーニングアーキテクチャをベースにしており、プロジェクトのために作成された新しいベンチマークデータセットで70%の精度を達成している。

自然言語をモバイルUIアクションにマッピングするGoogleのオープンソースAI

Googleは、自然言語の命令のシーケンスをモバイルデバイスのUIでアクションに変換するためのAIモデルをオープンソース化した。このモデルはTransformerディープラーニングアーキテクチャをベースにしており、プロジェクトのために作成された新しいベンチマークデータセットで70%の精度を達成している。

Google Researchの科学者チームは、先日開催されたAssociation for Computational Linguistics(ACL)カンファレンスで、このモデルを説明する論文を発表した。このプロジェクトの目的は、視覚障害者や一時的に「ハンズフリー」モードが必要なモバイルデバイスユーザーのための自然言語インターフェースの開発を支援することにある。1つ目は自然言語の指示を一連の「アクションフレーズ」に変換し、2つ目はアクションフレーズを画面上のUIオブジェクトとマッチングさせることで「地に足のついた」状態にするTransformerの2つのモデルを順番に使用している。研究科学者のYang Liがこのプロジェクトを説明するブログ記事で次のように述べている。

この作業は、UIの詳細を操作する必要性を軽減し、モバイルデバイス上でのタスク自動化のための技術的基盤を構築する。

トランスフォーマー(Transformer)は、2017年にGoogleによって開発された、入力シーケンスを出力シーケンスにマッピングするための深層学習アーキテクチャです。これは、リカレント・ニューラル・ネットワーク(RNN)のような他のシーケンス学習アーキテクチャと比較して、学習の安定性や推論の高速化など、いくつかの利点を持っている。トランスフォーマーの主要な操作は注意であり、入力と出力のシーケンスの異なる部分の間の関係を学習する。例えば、ある言語から別の言語に翻訳するように訓練されたトランスフォーマーでは、アテンションはしばしば、ソース言語の単語とターゲット言語の単語のマッピングを学習する。

Googleの新しいAIでは、あるトランスフォーマーは、エリア・アテンションと呼ばれる注意の一形態を使用して、"navigate to"などのように、離散的なアクションにマッピングされた入力命令の中の隣接する単語のスパンを識別している。このトランスフォーマーは、自然言語の入力命令のシーケンスをUIアクションを表すタプル(順序付けされた不変のオブジェクトの集合)のシーケンスに変換する。各タプルは、操作(「開く」や「クリック」など)、操作するオブジェクトの説明(「設定」や「App Drawer」など)、オプションのパラメータ(テキストボックスに入力するテキストなど)で構成されている。これらのアクションを実行するためには、正しいUIオブジェクトを識別することで、これらのアクションが接地されている必要がある。このトランスフォーマーへの入力には、アクションフレーズのタプルと、現在デバイスの画面上にあるUIオブジェクトのセットの両方が含まれる。トランスは、アクションフレーズのタプルからの説明に基づいてオブジェクトを選択することを学習する。

グラウンディングモデルは、抽出されたスパンを入力として受け取り、実行中の各ステップのUI画面を指定して、アクションが適用されるオブジェクトを含む実行可能なアクションにグラウンディングする。Image Credit: Google AI.

モデルを訓練するために、Googleは2つのデータセットを作成した。アクションフレーズ抽出トランスフォーマーを訓練するためのAndroidHowToと呼ばれるデータセットは、Androidデバイスに関連する「ハウツー」の質問への回答を求めてウェブをスクレイピングして収集された。人間のアノテータは、回答の指示に含まれるアクションフレーズのタプルを識別することで、データにラベルを付けた。最終的なデータセットには、約10,000件のラベル付けされた命令が含まれており、190,000件のアクションを表している。接地変圧器については、RicoSCAと呼ばれる合成データセットを作成した。AndroidアプリのUI画面を72k個収録したRicoという一般に公開されているデータセットから、チームは画面からUI要素をランダムに選択し、"tap" や "click" などのコマンドを生成した。結果として得られたデータセットには、約30万個のコマンドが含まれている。

システムの総合的な性能を評価するために、研究チームはPixel電話のヘルプページからコンパイルされたPixelHelpと呼ばれるデータセットを作成した。人間のオペレータは、ページに記載されているタスクを実行するために、ピクセル電話のエミュレータを使用した。ロガーが彼らの行動を記録し、自然言語命令とUI操作のマッピングを作成した。結果として得られたデータセットには、187個の多段階命令が含まれている。このデータセットで新AIを評価したところ、70.59%の精度を達成した。

Googleの新AIは、モバイルデバイスの自然言語自動化に向けた数多くの取り組みのうちの1つ。Appleは2018年にSiri Shortcutsを導入し、ユーザーが音声コマンドでトリガーできる一連のアクションを定義できるようにした。AmazonのAlexは最近、ディープリンクをサポートするアプリを自動化する機能を導入した。SiriとAlexaのソリューションはどちらも、アプリが明示的にサポートする必要がある。対照的に、GoogleのAIはデバイスのUI上で直接操作を学習するため、どんなアプリでも利用できる。

参考文献

  1. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need. arXiv:1706.03762. ubmitted on 12 Jun 2017 (v1), last revised 6 Dec 2017.
  2. Yang Li et al. Mapping Natural Language Instructions to Mobile UI Action Sequences. arXiv:2005.03776. Submitted on 7 May 2020 (v1*), last revised 5 Jun 2020 (this version, v2).

Photo by Google.

Read more

AI時代のエッジ戦略 - Fastly プロダクト責任者コンプトンが展望を語る

AI時代のエッジ戦略 - Fastly プロダクト責任者コンプトンが展望を語る

Fastlyは、LLMのAPI応答をキャッシュすることで、コスト削減と高速化を実現する「Fastly AI Accelerator」の提供を開始した。キップ・コンプトン最高プロダクト責任者(CPO)は、類似した質問への応答を再利用し、効率的な処理を可能にすると説明した。さらに、コンプトンは、エッジコンピューティングの利点を活かしたパーソナライズや、エッジにおけるGPUの経済性、セキュリティへの取り組みなど、FastlyのAI戦略について語った。

By 吉田拓史
宮崎市が実践するゼロトラスト:Google Cloud 採用で災害対応を強化し、市民サービス向上へ

宮崎市が実践するゼロトラスト:Google Cloud 採用で災害対応を強化し、市民サービス向上へ

Google Cloudは10月8日、「自治体におけるゼロトラスト セキュリティ 実現に向けて」と題した記者説明会を開催し、自治体向けにゼロトラストセキュリティ導入を支援するプログラムを発表した。宮崎市の事例では、Google WorkspaceやChrome Enterprise Premiumなどを導入し、災害時の情報共有の効率化などに成功したようだ。

By 吉田拓史
​​イオンリテール、Cloud Runでデータ分析基盤内製化 - 顧客LTV向上と従業員主導の分析体制へ

​​イオンリテール、Cloud Runでデータ分析基盤内製化 - 顧客LTV向上と従業員主導の分析体制へ

Google Cloudが9月25日に開催した記者説明会では、イオンリテール株式会社がCloud Runを活用し顧客生涯価値(LTV)向上を目指したデータ分析基盤を内製化した事例を紹介。従業員1,000人以上がデータ分析を行う体制を目指し、BIツールによる販促効果分析、生成AIによる会話分析、リテールメディア活用などの取り組みを進めている。

By 吉田拓史
Geminiが切り拓くAIエージェントの新時代:Google Cloud Next Tokyo '24, VPカルダー氏インタビュー

Geminiが切り拓くAIエージェントの新時代:Google Cloud Next Tokyo '24, VPカルダー氏インタビュー

Google Cloudは、年次イベント「Google Cloud Next Tokyo '24」で、大規模言語モデル「Gemini」を活用したAIエージェントの取り組みを多数発表した。Geminiは、コーディング支援、データ分析、アプリケーション開発など、様々な分野で活用され、業務効率化や新たな価値創出に貢献することが期待されている。

By 吉田拓史