研究者が3,867のAI研究論文で「一貫性のない」ベンチマークを発見

AIや機械学習モデルのベンチマークに使用されるメトリクスは、それらのモデルの真のパフォーマンスを十分に反映していないことが多い、とウィーンのInstitute for Artificial Intelligence and Decision Support(人工知能・意思決定支援研究所)の研究者によるプレプリント研究が主張しています。この研究はオープンソースのWebベースのプラットフォームPapers with Codeから3,000以上のモデルのパフォーマンス結果のデータを分析したものです。彼らは、代替的でより適切なメトリクスがベンチマークで使用されることはほとんどなく、メトリクスの報告は一貫性がなく特定性がなく、曖昧さにつながっていると主張しています。

ベンチマーキングは、AI研究の進歩の重要な推進力となっています。タスク(またはタスク)とそれに関連するメトリクスは、科学コミュニティが解決しようとしている問題の抽象化として認識することができます。ベンチマークデータセットは、モデルによって解決されるタスクの固定された代表サンプルとして概念化されています。しかし、機械翻訳、物体検出、質問応答など、さまざまなタスクをカバーするベンチマークが確立されていますが、論文の共著者は、精度(サンプル数の合計に対する正しく予測されたサンプルの比率)のように、パフォーマンスのある側面を強調しているものがある一方で、他の側面を犠牲にしていると主張しています。

研究者によると、分析したベンチマークデータセットの3分の2以上(77.2%)では、単一のパフォーマンス指標しか報告されていませんでした。ベンチマークデータセットのごく一部(14.4%)では、トップレベルのメトリクスが2つ、6%では3つのメトリクスが報告されていました。

研究者らは、「曲線下面積」を単に「AUC」として参照しているような、特定したメトリクスの報告に不規則性があることに注意しています。曲線下面積とは、精度とリコールを互いにプロットしているか(PR-AUC)、リコールと偽陽性率をプロットしているか(ROC-AUC)によって、異なる方法で解釈できる精度の尺度です。同様に、いくつかの論文では、どのバリアントが使用されたかを特定せずに、自然言語処理ベンチマークであるROUGEについて言及しています。ROUGEには精度を調整したサブバリアントとリコールを調整したサブバリアントがあり、リコールのサブバリアントの方が一般的ですが、これは論文間で結果を比較する際に曖昧さにつながる可能性があると研究者らは主張しています。

矛盾はさておき、調査対象となった論文で使用されているベンチマークの多くには問題があると研究者らは述べています。精度は、バイナリおよびマルチクラス分類器モデルを評価するためによく使用されますが、クラスごとのインスタンス数に大きな差があるアンバランスなコーパスを扱う場合には、有益な結果は得られません。分類器がすべてのケースで多数派クラスを予測する場合,精度は全ケース中の多数派クラスの割合に等しくなります。例えば、ある「クラスA」が全インスタンスの95%を占めている場合、「クラスA」を常に予測する分類器は95%の精度を持つことになります。

精度とリコールもまた、分類器によって正と予測されたインスタンス、または真の正(正確な予測)にのみ焦点を当てるという点で限界があります。どちらもネガティブなケースを正確に予測するモデルの能力を無視しています。Fスコアに関しては、精度とリコールを比較して重視することがあり、大多数のクラスを予測することに偏った分類器に誤解を招く結果を提供します。これに加えて、これらのモデルは1つのクラスにしか焦点を当てることができません。

自然言語処理の領域では、研究者らはBLEUやROUGEなどのベンチマークの問題点を強調しています。BLEUはリコールを考慮しておらず、機械翻訳の品質に関する人間の判断とは相関しておらず、ROUGEは、会議の議事録のように、多くの異なる話者がいる議事録の抽象的要約や抽出的要約のような、広範囲の言い換えに依存するタスクを適切にカバーしていません。

研究者らは、マシューズ相関係数やThe Fowlkes-Mallows 指標のような、精度やFスコアのメトリクスの欠点のいくつかに対処する、より優れた代替メトリクスが、分析したどの論文でも使用されていないことを発見しました。実際、「精度」というトップレベルの指標が報告されているベンチマークデータセットの83.1%では、他のトップレベルの指標は使用されておらず、60.9%のデータセットではF値が唯一の指標でした。これは自然言語処理メトリクスにも当てはまりました。タスク間で人間の判断と強く相関することが示されているMETEORは、わずか13回しか使用されていませんでした。また、生成されたテキストが「通常の」言語使用法にどれだけ適合しているかを評価することを目的としたGLEUは、わずか3回しか登場しませんでした。

研究者たちは、科学雑誌に掲載された論文ではなく、プレプリントを分析するという決定が、研究結果を歪めている可能性があることを認めています。しかし、現在AIベンチマークタスクを評価するために使用されているメトリクスの大半は、特に不均衡なデータセットで使用されている場合には、分類器のパフォーマンスを十分に反映していない可能性がある特性を持っているという結論を支持しています。問題のある特性に対処する代替のメトリクスが提案されていますが、ベンチマークタスクのパフォーマンスメトリクスとして適用されることはほとんどなく、代わりに歴史的に確立されたメトリクスの少数セットが使用されています。研究者らは、NLP特有のタスクは、言語とタスク特有の複雑さのために、メトリクス設計にさらなる課題を投げかけています。

ベンチマークでのパフォーマンスの向上よりも、AIの科学的進歩に焦点を当てることを求める学者が増えている。6月のインタビューで、Google Brainチームの元レジデントであるDenny Britzは、交絡変数が多すぎて、DeepMindやOpenAIのような大規模で資金力のある研究室が有利になるため、最先端を追いかけることは悪いことだと考えていると述べた。これとは別に、Zachary Lipton(カーネギーメロン大学の助教授)とJacob Steinhardt氏(カリフォルニア大学バークレー校の統計学部のメンバー)は、最近のメタ分析で、AI研究者がパフォーマンスではなく、アプローチの方法と理由に焦点を当て、研究の過程でエラー分析、アブレーション研究、ロバストネスチェックをより多く行うことを提案しています。

参考文献

  1. Kathrin Blagec et al. A critical analysis of metrics used for measuring progress in artificial intelligence. arXiv:2008.02577.

Photo by Charles Deluvio on Unsplash