AI研究者がNLPのバグを見つけるテストツールを作成

AI研究者が、Amazon、Google、Microsoftが市販するクラウドAI製品の主要なバグを発見した言語モデルテストツールを作成。CheckListツールを詳述した論文が、Association for Computational Linguistics(ACL)会議の主催者から最優秀論文賞を受賞。

AI研究者がNLPのバグを見つけるテストツールを作成

AI研究者が、Amazon、Google、Microsoftから市販されているクラウドAI製品の主要なバグを発見した言語モデルテストツールを作成した。このほど、CheckListツールを詳述した論文が、Association for Computational Linguistics(ACL)カンファレンスの主催者から最優秀論文賞を受賞した。ACL会議は、言語モデルを作成する研究者のための年に一度の最大規模の集まり。

今日のNLPモデルは、GLUEのようなリーダーボードを使ってベンチマークデータセットを使って質問に答えるなど、一連の個々のタスクでどのようにパフォーマンスを発揮するかに基づいて評価されることが多い。CheckList は、タスクにとらわれないアプローチを採用しており、能力(行)とテストタイプ(列)をスプレッドシートのようなマトリックスのセルに記入するテストを作成し、可視化やその他のリソースと一緒に作成することができる。

CheckListを使った分析では、AmazonのComprehendによるセンチメント分析予測では、ランダムに短縮されたURLやTwitterのハンドルをテキストに入れると約4人に1人が変化し、Google CloudのNatural LanguageとAmazonのComprehendでは、人名や地名をテキストに入れるとミスをしてしまうことがわかった。

「否定が文末に来る場合(例:『I thought the plane would be awful, but it wasn't')、または否定と感情を含んだ単語の間に中立的な内容がある場合、(センチメント分析)の失敗率はすべての商用モデルでほぼ100%です」と論文には書かれている。

CheckListはまた、Quoraの質問ペアのベンチマークチャレンジで人間の精度を上回ったにもかかわらず、Quoraの質問への回答を言い換えたときにも欠点があることを明らかにした。マイクロソフト、ワシントン大学、カリフォルニア大学アーバイン校のCheckListの作成者は、このアプローチを使用することで、既存のあらゆるNLPモデルを改善できることを示す結果が得られたと述べている。

「従来のベンチマークでは、これらのタスクのモデルは人間と同等の精度であることが示されていますが、CheckListでは、市販のモデルや研究用のモデルでは、否定、名前付き実体、coreferences、意味的役割のラベリングなどの基本的な言語学的現象を各タスクに関連するように効果的に処理できないという、さまざまな深刻なバグが明らかになっている」と論文は記述している。「CheckListを使用したNLP実践者は、CheckListを使用していないユーザーの2倍のテストを作成し、ほぼ3倍のバグを発見した」。

GoogleのBERTとFacebookのAIのRoBERTaもCheckListを使って評価した。著者らによると、BERTは機械理解においてジェンダーバイアスを示し、例えば医師として圧倒的に男性を予測していたという。BERTはまた、無神論者、黒人、ゲイ、またはレズビアンである人々についてのテキストを扱う場合、ストレートまたはアジア人については常に肯定的な予測を行い、否定的な予測を行うことが判明しました。また、2020年初頭の分析では、大規模な言語モデルの間で体系的な偏りがあることも判明している。

ここ数ヶ月の間に、NvidiaのMegatronからMicrosoftのTuring NLGまで、トランスフォーマーをベースにした最大級の言語モデルが開発された。大規模な言語モデルは、特定のタスクで印象的なスコアを記録してきた。しかし、NLP研究者の中には、個々のタスクにおける人間レベルのパフォーマンスに焦点を当てることは、NLPシステムがいまだに脆弱であったり、ロバスト性に劣っていたりすることを無視していると主張する人もいる。

現在顧客が使用しているモデルで、複数回の評価を経ているText Analyticsの担当チームとのユースケーステストの一環として、CheckListを使用したところ、これまで知られていなかったバグが発見された。今後、マイクロソフトのチームは、NLPシステムを評価する際のワークフローの一部としてCheckListを活用していくという。このツールを使って2時間にわたってAIをテストした産官学関係者の集まりでは、最先端のNLPモデルの不正確さやバグを発見することもできたという。現在、CheckListのオープンソース版がGitHubで公開されている。

ブラックボックステストと呼ばれることもあるが、行動テストはソフトウェアエンジニアリングでは一般的なアプローチだが、AIではない。CheckListは、感情分析、機械理解、重複質問の検出などの分野でテストを行うことができる。また、ロバスト性、公平性、ロジックテストのような能力を3種類のタスクの範囲で分析することができる。

著者らは、ベンチマークタスクだけではNLPモデルの評価には不十分であるという結論を明確に示しているが、CheckListは既存の課題や言語モデルの性能測定に用いられるベンチマークデータセットを置き換えるのではなく、補完すべきものであるとも述べている。

「この少数のテストは、標準的な評価に加えて、体系的なテストの利点を示している。これらのタスクは、ベンチマークの精度の結果に基づいて『解決した』と考えられるかもしれないが、テストでは様々な改善点が浮き彫りになっている。特に、手元のタスクに事実上必要とされる基本的なスキルが発揮されていないことが挙げられる」と論文は説明している。

ACLでの他の注目すべき研究には、最優秀テーマ賞を受賞したワシントン大学のEmily Bender教授とザールランド大学のAlexander Koller教授の研究がある。この論文は、GPT-3やBERTなどの大規模ニューラルネットワークNLPモデルの進歩は称賛に値するが、メディアやアカデミアのメンバーは大規模ニューラルネットワークを理解や理解が可能であると言ってはならず、意味や理解などの概念を定義する際には、NLPの分野では明快さと謙虚さが必要であると主張している。

Photo by Microsoft

Read more

米国のEV革命は失速?[英エコノミスト]

米国のEV革命は失速?[英エコノミスト]

米国人は自動車が大好きだ。バッテリーで走らない限りは。ピュー・リサーチ・センターが7月に発表した世論調査によると、電気自動車(EV)の購入を検討する米国人は5分の2以下だった。充電網が絶えず拡大し、選べるEVの車種がますます増えているにもかかわらず、このシェアは前年をわずかに下回っている。 この言葉は、相対的な無策に裏打ちされている。2023年第3四半期には、バッテリー電気自動車(BEV)は全自動車販売台数の8%を占めていた。今年これまでに米国で販売されたEV(ハイブリッド車を除く)は100万台に満たず、自動車大国でない欧州の半分強である(図表参照)。中国のドライバーはその4倍近くを購入している。

By エコノミスト(英国)
労働者の黄金時代:雇用はどう変化しているか[英エコノミスト]

労働者の黄金時代:雇用はどう変化しているか[英エコノミスト]

2010年代半ばは労働者にとって最悪の時代だったという点では、ほぼ誰もが同意している。ロンドン・スクール・オブ・エコノミクスの人類学者であるデイヴィッド・グレーバーは、「ブルシット・ジョブ(どうでもいい仕事)」という言葉を作り、無目的な仕事が蔓延していると主張した。2007年から2009年にかけての世界金融危機からの回復には時間がかかり、豊かな国々で構成されるOECDクラブでは、労働人口の約7%が完全に仕事を失っていた。賃金の伸びは弱く、所得格差はとどまるところを知らない。 状況はどう変わったか。富裕国の世界では今、労働者は黄金時代を迎えている。社会が高齢化するにつれて、労働はより希少になり、より良い報酬が得られるようになっている。政府は大きな支出を行い、経済を活性化させ、賃上げ要求を後押ししている。一方、人工知能(AI)は労働者、特に熟練度の低い労働者の生産性を向上させており、これも賃金上昇につながる可能性がある。例えば、労働力が不足しているところでは、先端技術の利用は賃金を上昇させる可能性が高い。その結果、労働市場の仕組みが一変する。 その理由を理解するために、暗

By エコノミスト(英国)
中国は地球を救うのか、それとも破壊するのか?[英エコノミスト]

中国は地球を救うのか、それとも破壊するのか?[英エコノミスト]

脳腫瘍で余命いくばくもないトゥー・チャンワンは、最後の言葉を残した。その中国の気象学者は、気候が温暖化していることに気づいていた。1961年、彼は共産党の機関紙『人民日報』で、人類の生命を維持するための条件が変化する可能性があると警告した。 しかし彼は、温暖化は太陽活動のサイクルの一部であり、いつかは逆転するだろうと考えていた。トゥーは、化石燃料の燃焼が大気中に炭素を排出し、気候変動を引き起こしているとは考えなかった。彼の論文の数ページ前の『人民日報』のその号には、ニヤリと笑う炭鉱労働者の写真が掲載されていた。中国は欧米に経済的に追いつくため、工業化を急いでいた。 今日、中国は工業大国であり、世界の製造業の4分の1以上を擁する。しかし、その進歩の代償として排出量が増加している。過去30年間、中国はどの国よりも多くの二酸化炭素を大気中に排出してきた(図表1参照)。調査会社のロディウム・グループによれば、中国は毎年世界の温室効果ガスの4分の1以上を排出している。これは、2位の米国の約2倍である(ただし、一人当たりで見ると米国の方がまだひどい)。

By エコノミスト(英国)