
ChatGPTはWordleパズルに苦戦、その理由とは?
AIチャットボットは、私たちの生活の中で大きな役割を果たす可能性があります。ChatGPT-4がWordleと格闘する理由を理解することは、LLMがどのように単語を表現し、作業するのか、そしてそれがもたらす限界についての洞察をもたらします。
OpenAIが開発したChatGPTと呼ばれるAIチャットボットが、人々の注目と想像を集めています。複雑なトピックを要約したり、長い会話をする能力など、この技術の応用は実に印象的です。
他のAI企業が独自の大規模言語モデル(LLM)―ChatGPTのようなチャットボットの基礎となる技術の名称―のリリースを急いでいるのは当然です。これらのLLMの一部は、検索エンジンなど他の製品に組み込まれる予定です。
その素晴らしい機能を念頭に置いて、私はニューヨーク・タイムズのワードゲーム「Wordle」でチャットボットを試してみることにしました。プレイヤーは、5文字の単語を6回当てることができます。単語を当てるごとに、どの文字が正しい位置にあるのかが表示されます。
ChatGPT-4と呼ばれる最新世代を使ったところ、この問題に対するパフォーマンスが驚くほど低いことが判明しました。GPT-4は、言葉遊びが得意なのではと思われるかもしれません。LLMはテキストで「訓練」されるのですが、それはつまり、自分の能力を向上させるために情報に触れるということです。ChatGPT-4は、Wikipediaの全文、パブリックドメインの書籍、膨大な量の科学論文、多くのWebサイトのテキストなど、約5,000億語を対象に訓練されました。
AIチャットボットは、私たちの生活の中で大きな役割を果たす可能性があります。ChatGPT-4がWordleと格闘する理由を理解することは、LLMがどのように単語を表現し、作業するのか、そしてそれがもたらす限界についての洞察をもたらします。
まず、単語中の2文字の正しい位置を知らされているWordleパズルでChatGPT-4をテストしてみました。パターンは「#E#L#」で、「#」は未知の文字を表しています。答えは「mealy」という単語でした。
ChatGPT-4の6つの回答のうち、5つがパターンに一致しませんでした。その回答とは「beryl」「feral」「heral」「merle」「revel」「pearl」でした。
他の組み合わせでは、チャットボットが有効な解答を見つけることもありました。しかし、全体としては、非常に当たり外れが大きかったです。「OS#」というパターンに当てはまる単語の場合、5つの正しい選択肢を見つけることができました。しかし、「#R#F#」というパターンでは、「F」を含まない2つの単語と、辞書に載っていない「Traff」という単語が提案されました。
GPT-4の表現方法
ChatGPTの核となるのは、ディープニューラルネットワークです。入力と出力を対応させる複雑な数学的関数(ルール)です。入力と出力は数字でなければなりません。ChatGPT-4は言葉を扱うので、ニューラルネットワークが言葉を扱うためには、言葉を数字に「変換」する必要があります。
この変換は、トークナイザーと呼ばれるコンピュータプログラムによって行われ、トークナイザーは「トークン」と呼ばれる単語と文字列の膨大なリストを保持します。このトークンは、数字で識別されます。「friend」のような単語は、トークンIDが6756なので、「friendship」のような単語は、「friend」と「ship」というトークンに分解される。これらは、6756と6729という識別子で表されます。
ユーザーが質問を入力すると、ChatGPT-4がリクエストの処理を開始する前に、単語は数字に変換されます。ディープニューラルネットワークはテキストとして単語にアクセスできないので、文字について実際に推論することはできません。
詩のタスク
ChatGPT-4は、言葉の頭文字を扱うのが得意です。そこで、「ロボットが大好きです」という詩をつくってもらいました。すると、意外なほどうまくいきました。最初の4行を紹介しよう:
「私は歯車と鉄のファン
彼らの動きがとてもシュールで好きだ
サーキットの上では、素早く物事をやってのける
知識を競い合う彼らは、決して馬鹿ではない」
ChatGPT-4の学習データには、膨大な数の教科書が含まれており、その中にはアルファベットの索引が含まれていることが多い。そのため、GPT-4は単語とその頭文字の関連付けを学習していた可能性があります。
また、トークナイザーもこのようなリクエストを認識できるように改良されているようで、ユーザーがリクエストを入力すると、「I Love Robots」のようなフレーズを個々のトークンに分割するようです。しかし、ChatGPT-4は、単語の最後の文字を扱う要求を処理することができませんでした。
また、ChatGPT-4は回文(前から読んでも後ろから読んでも同じことば)も苦手です。ロボットに関する回文フレーズを要求され、「a robot’s sot, orba」を提案したが、これは回文の定義に当てはまらず、不明瞭な単語に依存しています。
しかし、LLMは他のコンピュータプログラムを生成することは比較的得意です。これは、彼らのトレーニングデータには、プログラミングに特化したウェブサイトが多く含まれているからです。私はChatGPT-4に、Wordleの欠落文字の正体を調べるプログラムを書いてくれるよう依頼しました。
ChatGPT-4が作った最初のプログラムにはバグがありました。それを指摘すると修正されました。そのプログラムを実行したところ、「#E#L#」というパターンに一致する単語が48個見つかり、その中には「tells」「cells」「hello」などが含まれていました。以前、GPT-4に直接、このパターンのマッチングを提案させたときは、1つしか見つからなかったのです。
今後の修正点
ChatGPT-4のような大規模な言語モデルが、単純な単語パズルを解いたり回文を作成したりするのに苦労するのは、意外に思われるかもしれません。
しかしこれは、すべてのテキスト入力を数値として符号化する必要があり、その過程で単語内の文字の構造を把握できないためです。ニューラルネットワークは純粋に数字だけで動作するため、単語を数字として符号化するという要件は変わりません。
将来のLLMがこれを克服する方法は2つあります。まず、ChatGPT-4はすべての単語の最初の文字を知っているので、その辞書にあるすべての単語内のすべての文字の位置のマッピングを含むように、学習データを増強することができます。
もうひとつは、よりエキサイティングで一般的な解決策です。私が示したように、将来のLLMはこのような問題を解決するためのコードを生成することができます。最近の論文では、LLMが外部のツールを使って、算術計算のような通常では困難な作業を行う「ツールフォーマー」と呼ばれるアイデアが紹介されています。
このように、現在の限界を知ることで、より素晴らしいAI技術を生み出すことができるのです。
Original Article

Authors
Michael G. Madden, Established Professor of Computer Science, University of Galway
© 2010-2023, The Conversation.
※アクシオンはCreative Commonsライセンスに基づいて、The Conversationの記事を再出版しています。
翻訳:吉田拓史、株式会社アクシオンテクノロジーズ