LLMが次世代のコンピュータインターフェイスになる
人々がAIやソフトウェアを使う上で、大規模言語モデル(LLM)が自然言語に対応する窓口になるという、昨年のChatGPTの登場以来現実性を増したアイデアがある。各プレイヤーの競争の焦点の一つだ。
人々がAIやソフトウェアを使う上で、大規模言語モデル(LLM)が自然言語に対応する窓口になるという、昨年のChatGPTの登場以来現実性を増したアイデアがある。各プレイヤーの競争の焦点の一つだ。
Google DeepMindのCEO、デミス・ハサビスは、米メディアThe Vergeのインタビューでこう話している。「チャットボットやその種のシステムの場合、最終的には、日常生活全般にわたって本当に便利で役立つことをするために、1日のうちに何度も使うような、素晴らしいユニバーサル・パーソナル・アシスタントになるでしょう」。
ハサビスは、大規模なAIシステムやコンピュータをモジュール化されたシステムとして捉えていると説明した。携帯電話を例に挙げて、スクリーン、チップ、アンテナなど、様々な部品が合わさって一つの機能を成し遂げる様子を示している。同様に、大規模な言語モデル(LLM)はユーザーとのインターフェースとして機能し、その背後で特定の専門タスク(例えば、タンパク質の折り畳み)を行うためには、別の専門的なAIモジュール(例えば、AlphaFold)を呼び出すという概念を説明している。
彼はツールユース(Tooluse)という研究分野に言及した。ツールユース機能の下では、中央システムはユーザーのプロンプトに効果的に応え、その質問や問い合わせを適切なツールにルーティングする。そして、その結果をユーザーに対して理解しやすい形で返する。これら全てのプロセスは、自然言語という最高のインターフェイスを通じて行われる。
「つまり、ユーザーにとっては、多くの能力を持つ1つの大きなAIシステムのように見えるだけで、その裏側では、AIシステムは専門化された小さなAIシステムに分解されている可能性がある」とハサビスは言う。
「そして、おそらくそれが次の時代になると思います…中央システムは、あなたが言語で効果的にプロンプトを出す、ほとんどスイッチステートメントのようなものだと考えることができ、あなたのクエリや質問、あるいはあなたが尋ねていることが何であれ、あなたのためにその質問を解決したり、あなたのために解決策を提供したりする適切なツールにルーティングします。そして、それを非常に理解しやすい方法で送り返す。ここでもまた、自然言語という最高のインターフェイスを使っている」。
ハサビスとともにDeepMindの共同設立者であり、Googleを離れInflection AIを創業したムスタファ・スレイマンも似たような考え方をしている。彼は、米メディアCNBCとのインタビューで、買い物や交渉などあらゆることを代行してくれるパーソナルアシスタントがAIの未来だと語った。彼は、これらのAIシステムは私たちの働き方や生活を劇的に変化させ、最終的には検索エンジンに取って代わるだろうと述べた。生成AIチャットボット「Pi」が、ユーザーの日常的なタスク管理を支援する機能を獲得することが、Inflection AIの目的だという。
OpenAIはChatGPT PluginでTooluseのインターフェイスの地位を狙ったが、サム・アルトマンはユーザーの反応が悪いと考えているようだ。
Tooluseの課題としては、LLMが通常は法外な計算コストと一般にアクセスできないデータセットに依存していることだ。GPUの供給不足もボトルネックになっている。ただ、LLaMAやOPTのようなオープンソースのLLMを使うことで、GoogleやMicrosoft、OpenAIのようなプレイヤーでなくともこのゲームに参入できる余地はある、と上海交通大学准教授のRui Yangはみている。
参考文献
- Run Yang et al. GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction. arXiv:2305.18752 (cs.CV) https://arxiv.org/abs/2305.18752