研究者が3,867のAI研究論文で「一貫性のない」ベンチマークを発見

AIや機械学習モデルのベンチマークに使用されるメトリクスは、それらのモデルの真のパフォーマンスを十分に反映していないことが多い、とウィーンのInstitute for Artificial Intelligence and Decision Supportの研究者によるプレプリント研究が主張しています。この研究はオープンソースのWebベースのプラットフォームPapers with Codeから3,000以上のモデルのパフォーマンス結果のデータを分析したものです。

研究者が3,867のAI研究論文で「一貫性のない」ベンチマークを発見

AIや機械学習モデルのベンチマークに使用されるメトリクスは、それらのモデルの真のパフォーマンスを十分に反映していないことが多い、とウィーンのInstitute for Artificial Intelligence and Decision Support(人工知能・意思決定支援研究所)の研究者によるプレプリント研究が主張しています。この研究はオープンソースのWebベースのプラットフォームPapers with Codeから3,000以上のモデルのパフォーマンス結果のデータを分析したものです。彼らは、代替的でより適切なメトリクスがベンチマークで使用されることはほとんどなく、メトリクスの報告は一貫性がなく特定性がなく、曖昧さにつながっていると主張しています。

ベンチマーキングは、AI研究の進歩の重要な推進力となっています。タスク(またはタスク)とそれに関連するメトリクスは、科学コミュニティが解決しようとしている問題の抽象化として認識することができます。ベンチマークデータセットは、モデルによって解決されるタスクの固定された代表サンプルとして概念化されています。しかし、機械翻訳、物体検出、質問応答など、さまざまなタスクをカバーするベンチマークが確立されていますが、論文の共著者は、精度(サンプル数の合計に対する正しく予測されたサンプルの比率)のように、パフォーマンスのある側面を強調しているものがある一方で、他の側面を犠牲にしていると主張しています。

研究者によると、分析したベンチマークデータセットの3分の2以上(77.2%)では、単一のパフォーマンス指標しか報告されていませんでした。ベンチマークデータセットのごく一部(14.4%)では、トップレベルのメトリクスが2つ、6%では3つのメトリクスが報告されていました。

研究者らは、「曲線下面積」を単に「AUC」として参照しているような、特定したメトリクスの報告に不規則性があることに注意しています。曲線下面積とは、精度とリコールを互いにプロットしているか(PR-AUC)、リコールと偽陽性率をプロットしているか(ROC-AUC)によって、異なる方法で解釈できる精度の尺度です。同様に、いくつかの論文では、どのバリアントが使用されたかを特定せずに、自然言語処理ベンチマークであるROUGEについて言及しています。ROUGEには精度を調整したサブバリアントとリコールを調整したサブバリアントがあり、リコールのサブバリアントの方が一般的ですが、これは論文間で結果を比較する際に曖昧さにつながる可能性があると研究者らは主張しています。

矛盾はさておき、調査対象となった論文で使用されているベンチマークの多くには問題があると研究者らは述べています。精度は、バイナリおよびマルチクラス分類器モデルを評価するためによく使用されますが、クラスごとのインスタンス数に大きな差があるアンバランスなコーパスを扱う場合には、有益な結果は得られません。分類器がすべてのケースで多数派クラスを予測する場合,精度は全ケース中の多数派クラスの割合に等しくなります。例えば、ある「クラスA」が全インスタンスの95%を占めている場合、「クラスA」を常に予測する分類器は95%の精度を持つことになります。

精度とリコールもまた、分類器によって正と予測されたインスタンス、または真の正(正確な予測)にのみ焦点を当てるという点で限界があります。どちらもネガティブなケースを正確に予測するモデルの能力を無視しています。Fスコアに関しては、精度とリコールを比較して重視することがあり、大多数のクラスを予測することに偏った分類器に誤解を招く結果を提供します。これに加えて、これらのモデルは1つのクラスにしか焦点を当てることができません。

自然言語処理の領域では、研究者らはBLEUやROUGEなどのベンチマークの問題点を強調しています。BLEUはリコールを考慮しておらず、機械翻訳の品質に関する人間の判断とは相関しておらず、ROUGEは、会議の議事録のように、多くの異なる話者がいる議事録の抽象的要約や抽出的要約のような、広範囲の言い換えに依存するタスクを適切にカバーしていません。

研究者らは、マシューズ相関係数やThe Fowlkes-Mallows 指標のような、精度やFスコアのメトリクスの欠点のいくつかに対処する、より優れた代替メトリクスが、分析したどの論文でも使用されていないことを発見しました。実際、「精度」というトップレベルの指標が報告されているベンチマークデータセットの83.1%では、他のトップレベルの指標は使用されておらず、60.9%のデータセットではF値が唯一の指標でした。これは自然言語処理メトリクスにも当てはまりました。タスク間で人間の判断と強く相関することが示されているMETEORは、わずか13回しか使用されていませんでした。また、生成されたテキストが「通常の」言語使用法にどれだけ適合しているかを評価することを目的としたGLEUは、わずか3回しか登場しませんでした。

研究者たちは、科学雑誌に掲載された論文ではなく、プレプリントを分析するという決定が、研究結果を歪めている可能性があることを認めています。しかし、現在AIベンチマークタスクを評価するために使用されているメトリクスの大半は、特に不均衡なデータセットで使用されている場合には、分類器のパフォーマンスを十分に反映していない可能性がある特性を持っているという結論を支持しています。問題のある特性に対処する代替のメトリクスが提案されていますが、ベンチマークタスクのパフォーマンスメトリクスとして適用されることはほとんどなく、代わりに歴史的に確立されたメトリクスの少数セットが使用されています。研究者らは、NLP特有のタスクは、言語とタスク特有の複雑さのために、メトリクス設計にさらなる課題を投げかけています。

ベンチマークでのパフォーマンスの向上よりも、AIの科学的進歩に焦点を当てることを求める学者が増えている。6月のインタビューで、Google Brainチームの元レジデントであるDenny Britzは、交絡変数が多すぎて、DeepMindやOpenAIのような大規模で資金力のある研究室が有利になるため、最先端を追いかけることは悪いことだと考えていると述べた。これとは別に、Zachary Lipton(カーネギーメロン大学の助教授)とJacob Steinhardt氏(カリフォルニア大学バークレー校の統計学部のメンバー)は、最近のメタ分析で、AI研究者がパフォーマンスではなく、アプローチの方法と理由に焦点を当て、研究の過程でエラー分析、アブレーション研究、ロバストネスチェックをより多く行うことを提案しています。

参考文献

  1. Kathrin Blagec et al. A critical analysis of metrics used for measuring progress in artificial intelligence. arXiv:2008.02577.

Photo by Charles Deluvio on Unsplash

Read more

新たなスエズ危機に直面する米海軍[英エコノミスト]

新たなスエズ危機に直面する米海軍[英エコノミスト]

世界が繁栄するためには、船が港に到着しなければならない。マラッカ海峡やパナマ運河のような狭い航路を通過するとき、船舶は最も脆弱になる。そのため、スエズ運河への唯一の南側航路である紅海で最近急増している船舶への攻撃は、世界貿易にとって重大な脅威となっている。イランに支援されたイエメンの過激派フーシ派は、表向きはパレスチナ人を支援するために、35カ国以上につながる船舶に向けて100機以上の無人機やミサイルを発射した。彼らのキャンペーンは、黒海から南シナ海まですでに危険にさらされている航行の自由の原則に対する冒涜である。アメリカとその同盟国は、中東での紛争をエスカレートさせることなく、この問題にしっかりと対処しなければならない。 世界のコンテナ輸送量の20%、海上貿易の10%、海上ガスと石油の8~10%が紅海とスエズルートを通過している。数週間の騒乱の後、世界の5大コンテナ船会社のうち4社が紅海とスエズ航路の航海を停止し、BPは石油の出荷を一時停止した。十分な供給があるため、エネルギー価格への影響は軽微である。しかし、コンテナ会社の株価は、投資家が輸送能力の縮小を予想している

By エコノミスト(英国)
新型ジェットエンジンが超音速飛行を復活させる可能性[英エコノミスト]

新型ジェットエンジンが超音速飛行を復活させる可能性[英エコノミスト]

1960年代以来、世界中のエンジニアが回転デトネーションエンジン(RDE)と呼ばれる新しいタイプのジェット機を研究してきたが、実験段階を超えることはなかった。世界最大のジェットエンジン製造会社のひとつであるジー・エアロスペースは最近、実用版を開発中であると発表した。今年初め、米国の国防高等研究計画局は、同じく大手航空宇宙グループであるRTX傘下のレイセオンに対し、ガンビットと呼ばれるRDEを開発するために2900万ドルの契約を結んだ。 両エンジンはミサイルの推進に使用され、ロケットや既存のジェットエンジンなど、現在の推進システムの航続距離や速度の限界を克服する。しかし、もし両社が実用化に成功すれば、超音速飛行を復活させる可能性も含め、RDEは航空分野でより幅広い役割を果たすことになるかもしれない。 中央フロリダ大学の先端航空宇宙エンジンの専門家であるカリーム・アーメッドは、RDEとは「火を制御された爆発に置き換える」ものだと説明する。専門用語で言えば、ジェットエンジンは酸素と燃料の燃焼に依存しており、これは科学者が消炎と呼ぶ亜音速の反応だからだ。それに比べてデトネーシ

By エコノミスト(英国)
ビッグテックと地政学がインターネットを作り変える[英エコノミスト]

ビッグテックと地政学がインターネットを作り変える[英エコノミスト]

今月初め、イギリス、エストニア、フィンランドの海軍がバルト海で合同演習を行った際、その目的は戦闘技術を磨くことではなかった。その代わり、海底のガスやデータのパイプラインを妨害行為から守るための訓練が行われた。今回の訓練は、10月に同海域の海底ケーブルが破損した事件を受けたものだ。フィンランド大統領のサウリ・ニーニストは、このいたずらの原因とされた中国船が海底にいかりを引きずった事故について、「意図的なのか、それとも極めて稚拙な技術の結果なのか」と疑問を呈した。 海底ケーブルはかつて、インターネットの退屈な配管と見なされていた。現在、アマゾン、グーグル、メタ、マイクロソフトといったデータ経済の巨人たちは、中国と米国の緊張が世界のデジタルインフラを分断する危険性をはらんでいるにもかかわらず、データの流れをよりコントロールすることを主張している。その結果、海底ケーブルは貴重な経済的・戦略的資産へと変貌を遂げようとしている。 海底データパイプは、大陸間インターネットトラフィックのほぼ99%を運んでいる。調査会社TeleGeographyによると、現在550本の海底ケーブルが活動

By エコノミスト(英国)