自然言語をモバイルUIアクションにマッピングするGoogleのオープンソースAI

Googleは、自然言語の命令のシーケンスをモバイルデバイスのUIでアクションに変換するためのAIモデルをオープンソース化した。このモデルはTransformerディープラーニングアーキテクチャをベースにしており、プロジェクトのために作成された新しいベンチマークデータセットで70%の精度を達成している。

自然言語をモバイルUIアクションにマッピングするGoogleのオープンソースAI

Googleは、自然言語の命令のシーケンスをモバイルデバイスのUIでアクションに変換するためのAIモデルをオープンソース化した。このモデルはTransformerディープラーニングアーキテクチャをベースにしており、プロジェクトのために作成された新しいベンチマークデータセットで70%の精度を達成している。

Google Researchの科学者チームは、先日開催されたAssociation for Computational Linguistics(ACL)カンファレンスで、このモデルを説明する論文を発表した。このプロジェクトの目的は、視覚障害者や一時的に「ハンズフリー」モードが必要なモバイルデバイスユーザーのための自然言語インターフェースの開発を支援することにある。1つ目は自然言語の指示を一連の「アクションフレーズ」に変換し、2つ目はアクションフレーズを画面上のUIオブジェクトとマッチングさせることで「地に足のついた」状態にするTransformerの2つのモデルを順番に使用している。研究科学者のYang Liがこのプロジェクトを説明するブログ記事で次のように述べている。

この作業は、UIの詳細を操作する必要性を軽減し、モバイルデバイス上でのタスク自動化のための技術的基盤を構築する。

トランスフォーマー(Transformer)は、2017年にGoogleによって開発された、入力シーケンスを出力シーケンスにマッピングするための深層学習アーキテクチャです。これは、リカレント・ニューラル・ネットワーク(RNN)のような他のシーケンス学習アーキテクチャと比較して、学習の安定性や推論の高速化など、いくつかの利点を持っている。トランスフォーマーの主要な操作は注意であり、入力と出力のシーケンスの異なる部分の間の関係を学習する。例えば、ある言語から別の言語に翻訳するように訓練されたトランスフォーマーでは、アテンションはしばしば、ソース言語の単語とターゲット言語の単語のマッピングを学習する。

Googleの新しいAIでは、あるトランスフォーマーは、エリア・アテンションと呼ばれる注意の一形態を使用して、"navigate to"などのように、離散的なアクションにマッピングされた入力命令の中の隣接する単語のスパンを識別している。このトランスフォーマーは、自然言語の入力命令のシーケンスをUIアクションを表すタプル(順序付けされた不変のオブジェクトの集合)のシーケンスに変換する。各タプルは、操作(「開く」や「クリック」など)、操作するオブジェクトの説明(「設定」や「App Drawer」など)、オプションのパラメータ(テキストボックスに入力するテキストなど)で構成されている。これらのアクションを実行するためには、正しいUIオブジェクトを識別することで、これらのアクションが接地されている必要がある。このトランスフォーマーへの入力には、アクションフレーズのタプルと、現在デバイスの画面上にあるUIオブジェクトのセットの両方が含まれる。トランスは、アクションフレーズのタプルからの説明に基づいてオブジェクトを選択することを学習する。

グラウンディングモデルは、抽出されたスパンを入力として受け取り、実行中の各ステップのUI画面を指定して、アクションが適用されるオブジェクトを含む実行可能なアクションにグラウンディングする。Image Credit: Google AI.

モデルを訓練するために、Googleは2つのデータセットを作成した。アクションフレーズ抽出トランスフォーマーを訓練するためのAndroidHowToと呼ばれるデータセットは、Androidデバイスに関連する「ハウツー」の質問への回答を求めてウェブをスクレイピングして収集された。人間のアノテータは、回答の指示に含まれるアクションフレーズのタプルを識別することで、データにラベルを付けた。最終的なデータセットには、約10,000件のラベル付けされた命令が含まれており、190,000件のアクションを表している。接地変圧器については、RicoSCAと呼ばれる合成データセットを作成した。AndroidアプリのUI画面を72k個収録したRicoという一般に公開されているデータセットから、チームは画面からUI要素をランダムに選択し、"tap" や "click" などのコマンドを生成した。結果として得られたデータセットには、約30万個のコマンドが含まれている。

システムの総合的な性能を評価するために、研究チームはPixel電話のヘルプページからコンパイルされたPixelHelpと呼ばれるデータセットを作成した。人間のオペレータは、ページに記載されているタスクを実行するために、ピクセル電話のエミュレータを使用した。ロガーが彼らの行動を記録し、自然言語命令とUI操作のマッピングを作成した。結果として得られたデータセットには、187個の多段階命令が含まれている。このデータセットで新AIを評価したところ、70.59%の精度を達成した。

Googleの新AIは、モバイルデバイスの自然言語自動化に向けた数多くの取り組みのうちの1つ。Appleは2018年にSiri Shortcutsを導入し、ユーザーが音声コマンドでトリガーできる一連のアクションを定義できるようにした。AmazonのAlexは最近、ディープリンクをサポートするアプリを自動化する機能を導入した。SiriとAlexaのソリューションはどちらも、アプリが明示的にサポートする必要がある。対照的に、GoogleのAIはデバイスのUI上で直接操作を学習するため、どんなアプリでも利用できる。

参考文献

  1. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need. arXiv:1706.03762. ubmitted on 12 Jun 2017 (v1), last revised 6 Dec 2017.
  2. Yang Li et al. Mapping Natural Language Instructions to Mobile UI Action Sequences. arXiv:2005.03776. Submitted on 7 May 2020 (v1*), last revised 5 Jun 2020 (this version, v2).

Photo by Google.

Read more

コロナは世界の子どもたちにとって大失敗だった[英エコノミスト]

コロナは世界の子どもたちにとって大失敗だった[英エコノミスト]

過去20年間、主に富裕国で構成されるOECDのアナリストたちは、学校の質を比較するために、3年ごとに数十カ国の生徒たちに読解、数学、科学のテストを受けてもらってきた。パンデミックによる混乱が何年も続いた後、1年遅れで2022年に実施された最新の試験で、良いニュースがもたらされるとは誰も予想していなかった。12月5日に発表された結果は、やはり打撃となった。

By エコノミスト(英国)
中国は2024年に経済的苦境を脱するか?[英エコノミスト]

中国は2024年に経済的苦境を脱するか?[英エコノミスト]

2007年から2009年にかけての世界金融危機の後、エコノミストたちは世界経済が二度と同じようにはならないことをすぐに理解した。災難を乗り越えたとはいえ、危機以前の現状ではなく、「新常態」へと回復するだろう。数年後、この言葉は中国の指導者たちにも採用された。彼らはこの言葉を、猛烈な成長、安価な労働力、途方もない貿易黒字からの脱却を表現するために使った。これらの変化は中国経済にとって必要な進化であり、それを受け入れるべきであり、激しく抵抗すべきではないと彼らは主張した。 中国がコロナを封じ込めるための長いキャンペーンを展開し、今年その再開が失望を呼んだ後、このような感情が再び現れている。格付け会社のムーディーズが今週、中国の信用格付けを中期的に引き下げなければならないかもしれないと述べた理由のひとつである。何人かのエコノミストは、中国の手に負えない不動産市場の新常態を宣言している。最近の日米首脳会談を受けて、中国とアメリカの関係に新たな均衡が生まれることを期待する論者もいる。中国社会科学院の蔡昉は9月、中国の人口減少、消費者の高齢化、選り好みする雇用主の混在によってもたら

By エコノミスト(英国)
イーロン・マスクの「X」は広告主のボイコットにめっぽう弱い[英エコノミスト]

イーロン・マスクの「X」は広告主のボイコットにめっぽう弱い[英エコノミスト]

広告業界を軽蔑するイーロン・マスクは、バイラルなスローガンを得意とする。11月29日に開催されたニューヨーク・タイムズのイベントで、世界一の富豪は、昨年彼が買収したソーシャル・ネットワーク、Xがツイッターとして知られていた頃の広告を引き上げる企業についてどう思うかと質問された。「誰かが私を脅迫しようとしているのなら、『勝手にしろ』」と彼は答えた。 彼のアプローチは、億万長者にとっては自然なことかもしれない。しかし、昨年、収益の90%ほどを広告から得ていた企業にとっては大胆なことだ。Xから広告を撤退させた企業には、アップルやディズニーが含まれる。マスクは以前、Xがブランドにとって安全な空間である証拠として、彼らの存在を挙げていた。

By エコノミスト(英国)