AI研究者が、Amazon、Google、Microsoftから市販されているクラウドAI製品の主要なバグを発見した言語モデルテストツールを作成した。このほど、CheckListツールを詳述した論文が、Association for Computational Linguistics(ACL)カンファレンスの主催者から最優秀論文賞を受賞した。ACL会議は、言語モデルを作成する研究者のための年に一度の最大規模の集まり。

今日のNLPモデルは、GLUEのようなリーダーボードを使ってベンチマークデータセットを使って質問に答えるなど、一連の個々のタスクでどのようにパフォーマンスを発揮するかに基づいて評価されることが多い。CheckList は、タスクにとらわれないアプローチを採用しており、能力(行)とテストタイプ(列)をスプレッドシートのようなマトリックスのセルに記入するテストを作成し、可視化やその他のリソースと一緒に作成することができる。

CheckListを使った分析では、AmazonのComprehendによるセンチメント分析予測では、ランダムに短縮されたURLやTwitterのハンドルをテキストに入れると約4人に1人が変化し、Google CloudのNatural LanguageとAmazonのComprehendでは、人名や地名をテキストに入れるとミスをしてしまうことがわかった。

「否定が文末に来る場合(例:『I thought the plane would be awful, but it wasn't')、または否定と感情を含んだ単語の間に中立的な内容がある場合、(センチメント分析)の失敗率はすべての商用モデルでほぼ100%です」と論文には書かれている。

CheckListはまた、Quoraの質問ペアのベンチマークチャレンジで人間の精度を上回ったにもかかわらず、Quoraの質問への回答を言い換えたときにも欠点があることを明らかにした。マイクロソフト、ワシントン大学、カリフォルニア大学アーバイン校のCheckListの作成者は、このアプローチを使用することで、既存のあらゆるNLPモデルを改善できることを示す結果が得られたと述べている。

「従来のベンチマークでは、これらのタスクのモデルは人間と同等の精度であることが示されていますが、CheckListでは、市販のモデルや研究用のモデルでは、否定、名前付き実体、coreferences、意味的役割のラベリングなどの基本的な言語学的現象を各タスクに関連するように効果的に処理できないという、さまざまな深刻なバグが明らかになっている」と論文は記述している。「CheckListを使用したNLP実践者は、CheckListを使用していないユーザーの2倍のテストを作成し、ほぼ3倍のバグを発見した」。

GoogleのBERTとFacebookのAIのRoBERTaもCheckListを使って評価した。著者らによると、BERTは機械理解においてジェンダーバイアスを示し、例えば医師として圧倒的に男性を予測していたという。BERTはまた、無神論者、黒人、ゲイ、またはレズビアンである人々についてのテキストを扱う場合、ストレートまたはアジア人については常に肯定的な予測を行い、否定的な予測を行うことが判明しました。また、2020年初頭の分析では、大規模な言語モデルの間で体系的な偏りがあることも判明している。

ここ数ヶ月の間に、NvidiaのMegatronからMicrosoftのTuring NLGまで、トランスフォーマーをベースにした最大級の言語モデルが開発された。大規模な言語モデルは、特定のタスクで印象的なスコアを記録してきた。しかし、NLP研究者の中には、個々のタスクにおける人間レベルのパフォーマンスに焦点を当てることは、NLPシステムがいまだに脆弱であったり、ロバスト性に劣っていたりすることを無視していると主張する人もいる。

現在顧客が使用しているモデルで、複数回の評価を経ているText Analyticsの担当チームとのユースケーステストの一環として、CheckListを使用したところ、これまで知られていなかったバグが発見された。今後、マイクロソフトのチームは、NLPシステムを評価する際のワークフローの一部としてCheckListを活用していくという。このツールを使って2時間にわたってAIをテストした産官学関係者の集まりでは、最先端のNLPモデルの不正確さやバグを発見することもできたという。現在、CheckListのオープンソース版がGitHubで公開されている。

ブラックボックステストと呼ばれることもあるが、行動テストはソフトウェアエンジニアリングでは一般的なアプローチだが、AIではない。CheckListは、感情分析、機械理解、重複質問の検出などの分野でテストを行うことができる。また、ロバスト性、公平性、ロジックテストのような能力を3種類のタスクの範囲で分析することができる。

著者らは、ベンチマークタスクだけではNLPモデルの評価には不十分であるという結論を明確に示しているが、CheckListは既存の課題や言語モデルの性能測定に用いられるベンチマークデータセットを置き換えるのではなく、補完すべきものであるとも述べている。

「この少数のテストは、標準的な評価に加えて、体系的なテストの利点を示している。これらのタスクは、ベンチマークの精度の結果に基づいて『解決した』と考えられるかもしれないが、テストでは様々な改善点が浮き彫りになっている。特に、手元のタスクに事実上必要とされる基本的なスキルが発揮されていないことが挙げられる」と論文は説明している。

ACLでの他の注目すべき研究には、最優秀テーマ賞を受賞したワシントン大学のEmily Bender教授とザールランド大学のAlexander Koller教授の研究がある。この論文は、GPT-3やBERTなどの大規模ニューラルネットワークNLPモデルの進歩は称賛に値するが、メディアやアカデミアのメンバーは大規模ニューラルネットワークを理解や理解が可能であると言ってはならず、意味や理解などの概念を定義する際には、NLPの分野では明快さと謙虚さが必要であると主張している。

Photo by Microsoft